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Javaye— | JIER EKER ARH, PERE, JL ERTS 
出 名 称 的 所 有 计算 平台 上 ， 都 或 多 或 少 会 浮现 出 Java 的 影子 。 当 初 Sun 
公司 在 推出 Java 之 际 就 将 其 作为 一 种 开放 陈 的 编程 语言 ， 这 无 疑 为 Java 
0 
' 决定 。 


Java 并 有 API 显然 只 是 Java 提 供 的 一 部 分 功能 。 然 而 到 现在 ， 在 历经 多 次 
修改 和 丰富 后 ， 它 已 经 强大 到 每 个 程序 员 都 应 予以 高 度 重 视 的 程度 。 在 
Java 的 每 个 版 本 中 ， 并 发 API 提 供给 程序 员 的 功能 都 在 增加 。 本 书 是 近 
年 来 不 可 多 得 的 一 本 专门 介绍 Java 并 发 编程 的 图 书 ， 对 于 致力 于 Java 大 
型 程序 设计 、 并 行 计算 、 分 布 式 计 算 和 大 数据 分 析 处 理 等 方 回 的 科研 人 
员 和 工程 人 员 来 说 ， 它 值得 一 读 。 可 以 说 本 书 是 从 并 发 处 理 的 视角 来 探 
讨 Java 编 程 ， 也 可 以 说 是 从 Java 的 视角 探讨 并 发 处 理 。 要 阅读 本 书 ， 需 
要 预先 了 解 Java 语 言 的 一 些 基 础 知识 ， 需 要 有 一 些 基本 的 Java 程 序 设 计 
经 验 ， 最 好 还 了 解 一 些 并 行 计算 或 者 数据 处 理 的 相关 技术 。 译 者 不 建议 
Java 语 言 的 初学 者 直接 学 习 本 书 。 


当 2016 年 本 书 第 1 版 (《 精 通 Java 8 并 发 编程 》) 刚 出 版 时 ， 图 灵 公 司 就 
敏锐 洞察 到 本 书 的 价值 ， 并 立即 开始 组 织 翻 译 工作 。 遗 憾 的 是 ， 此 后 不 
久 官 方 就 宣布 了 Java 9 即将 发 布 的 消息 。2017 年 ，Java 9 正式 发 布 后 ， 作 
者 迅速 推出 了 针对 Java 9 并 发 编程 的 第 2 版 图 书 ， 因 此 原 书 第 1 版 虽然 已 
经 翻译 完成 ， 但 是 最 终 没 能 跟 读 者 见面 。 


在 第 2 版 中 ， 作 者 修订 了 原 书 第 1 版 的 铝 干 错误 ， 更 换 了 部 分 演示 代码 ， 
增删 了 部 分 革 市 ， 使 全 书 内 容 更 具 系 统 性 ， 同 时 也 增加 和 融入 了 Java 9 
的 一 些 新 特性 。 该 书 的 主要 特点 如 下 。 


。 第 一 ， 脉 络 清晰 ， 内 容 全面 。 从 执行 器 框架 到 流 API， 从 并 友 数 据 
结构 到 同步 机 制 ， 从 程序 设计 到 调试 测试 ， 基 本 上 上 所 有 与 并 发 程序 
设计 相关 的 内 容 都 有 所 涉及 。 全 书 主线 明晰 ， 阅 读 起 来 比较 轻松 。 

。 第 二 ， 语 言 通俗 ， 举 例 充分 。 教 科 书 式 的 语言 相对 较 少 ， 原 理 通俗 
易 懂 ， 实 例 简洁 明了 。 几 乎 针对 每 个 重要 的 知识 点 都 提供 了 足够 的 
代码 示例 ， 使 得 学 习 和 练习 都 很 方便 。 


























。 第 三 ， 面 向 应 用 ， 便 于 上 手 。 作 者 的 视角 并 不 是 停留 在 并 发 编程 本 
身 ， 而 是 在 于 如 何 使 用 并 发 编程 解决 实际 问题 以 及 提高 处 理 效能 。 
读者 不 需要 深 陷 于 原理 本 身 ， 宜 结合 实际 各 取 所 需 ， 而 且 书 中 的 示 
例 也 都 很 实用 。 


从 第 1 厂 到 第 2 版 ， 本 书 的 翻译 过 程 几 长 而 艰 吾 ， 同 时 也 证 译 者 获 益 展 
多 ， 但 是 限于 译 者 水 平 ， 译 文 之 中 难免 会 出 现 一 些 错漏 之 处 ， 敬 请 读者 
海通 。 图 灵 公 司 的 多 位 编辑 在 本 书 的 翻译 过 程 中 给 予 了 指导 ， 为 本 书 耗 
费 了 大 量 心血 ， 在 此 一 并 表示 感谢 。 
































致 Nuria、Paula 和 Pelayo， 感 谢 你 们 无 限 的 关爱 和 耐心 。 
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目前 ， 计 算 机 系统 (以 及 其 他 相关 系统 ， 如 平板 电脑 、 智 能 手机 等 ) 可 
以 让 你 同时 执行 多 项 任务 。 这 是 因为 它们 拥有 并 发 的 操作 系统 ， 能 够 同 
时 控制 多 项 任务 。 使 用 你 最 喜欢 的 编程 语言 中 的 并 发 API， 还 能 实现 一 
个 可 以 同时 执行 多 项 任务 〈 读 取 文 件 、 显 示 消 轧 、 读 取 网 络 上 的 数据 ) 
的 应 用 程序 。Java 提 供 了 一 套 非 常 强 大 的 并 发 API， 让 你 不 费 吹 灰 之 力 
就 可 以 实现 任何 类 型 的 并 发 应 用 程序 。 在 Java 的 每 个 版 本 中 ， 该 并 发 

API 提 供给 程序 员 的 功能 都 有 所 增加 。 从 Java 8 开始 ， 已 经 包含 了 流 API 
以 及 一 些 便 于 实现 并 发 应 用 程序 的 新 方法 和 类 。 本 书 讲述 了 Java 并 发 

A 0 
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。 执行 器 框架 ， 用 于 控制 大 量 任务 的 执行 。 

。 Phaser 类 ， 用 于 执行 可 划分 为 多 个 阶段 的 任务 。 

。 Fork/Join 框 架 ， 用 于 执行 采用 分 治 法 解决 问题 的 任务 。 
。 流 API， 用 于 处 理 大 型 数据 源 ， 包 括 新 的 反应 流 。 








并 及 数据 结构 ， 用 于 在 并 发 应 用 程序 中 存储 数据 。 
同步 机 制 ， 用 于 组 织 并 发 任务 。 


此 外 ，Java 并 发 API 还 包含 更 多 内 容 ， 包 括 设计 并 发 应 用 程序 的 方法 
论 、 设 计 模 式 、 实 现 良 好 并 发 应 用 程序 的 提示 和 技巧 、 测 试 并 发 应 用 程 
序 的 工具 和 方法 ， 以 及 采用 其 他 面 癌 Java 虚 拟 机 的 语言 〈 例 如 Clojure、 
Groovy 和 Scala) 实现 并 发 应 用 程序 的 方法 。 





本 书 内 容 


第 1 章 ，“ 第 一 步 : 并 发 设计 原理 ?。 这 一 章 将 介绍 并 发 应 用 程序 的 设计 
原理 。 你 还 将 了 解 到 并 发 应 用 程序 可 能 出 现 的 问题 ， 以 及 设计 并 发 应 用 
程序 的 方法 论 ， 同 时 还 会 学 到 一 些 设计 模式 、 提 示 和 技巧 。 


第 2 章 ，“ 使 用 基本 元 素 ， Thread 和 Runnable”。 这 一 章 将 解释 如 何 采 
用 Java 语 言 中 最 基本 的 元 素 (Runnable 接 口 和 Thread 类 ) 来 实现 并 发 
应 用 程序 。 有 了 这 些 元 素 ， 你 可 以 创建 一 个 可 与 实际 执行 线程 并 行 执 行 
的 新 执行 线程 。 


第 3 章 , “管理 大 量 线程 : 执行 器 >。 这 一 章 将 介绍 执行 器 框架 的 基本 原 
理 。 该 框架 让 你 能 够 使 用 大 量 的 线程 ， 而 无 须 创 建 或 管理 它们 。 你 将 实 
现 k- 最 近邻 算法 和 一 个 基本 的 客户 站 /服务 器 应 用 程序 。 


PAR, “充分 利用 执行 器 ?。 这 一 章 将 探讨 执行 器 的 一 些 高 级 特性 ， 包 
括 为 了 在 一 段 延 迟 之 后 或 每 隔 一 定时 间 执 行 任 务 而 进行 的 任务 撤销 和 调 
度 。 你 将 实现 一 个 高 级 客户 端 /服务 顺应 用 程序 和 一 个 新 闻 阅 读 需 。 


第 5 章 ，“ 从 任务 获取 数据 : Callable 接 口 与 Future 接 口 ?。 这 一 章 将 
介绍 如 何在 执行 器 中 处 理 采 用 Callable 与 Future 接 口 返 回 结 果 的 任 
务 。 你 将 实现 一 个 最 佳 匹配 算法 以 及 一 个 构建 倒 排 索引 的 应 用 程序 。 


第 6 章 ，“ 运 行 分 为 多 阶段 的 任务 : Phaser 类 ”。 这 一 章 将 介绍 如 何 使 
用 Phaser 类 来 并 发 执行 那些 可 分 为 多 个 阶段 的 任务 。 你 将 实现 关键 字 
抽取 算法 和 遗传 算法 。 


Ble, “优化 分 治 解 决 方案 : ForkyJoin 框 架 ”。 这 一 章 将 介绍 如 何 使 用 
一 种 特殊 的 执行 器 ， 该 执行 器 针对 可 以 使 用 分 治 法 解决 的 问题 进行 了 优 
化 ， 这 束 是 Fork/Join 框 架 及 其 工作 名 取 Cwork-stealing) 算法 。 你 将 实 

现 k-means 聚 类 算法 、 数 据 往 选 算法 以 及 归并 排序 算法 。 


第 8 章 , “使 用 并 行 流 处 理 大 规模 数据 集 : MapReduce 模 型 >。 这 一 章 将 
介绍 如 何 采 用 流 来 处 理 大 规模 数据 集 。 你 将 学 习 如 何 使 用 流 API 和 更 多 
的 流 函 数 来 实现 MapReduce 应 用 程序 。 你 将 实现 一 个 数值 汇总 算法 和 一 
个 信息 检索 工具 





























第 9 章 ，“ 使 用 并 行 流 处 理 大 规模 数据 集 : MapCollect 模 型 >。 这 一 章 将 
探讨 如 何 使 用 流 API 中 的 collect() 方 法 对 数据 流 执 行 可 变 约 简 
(mutable reduction) 操作 ， 将 其 转换 为 一 种 不 同 的 数据 结构 ， 包 括 
在 Collectors 类 中 预定 义 的 一 些 收集 器 。 你 将 实现 一 个 无 须 建立 索引 
就 能 够 搜索 数据 的 工具 、 一 个 推荐 系统 ， 以 及 计算 社交 网 络 中 两 个 人 的 
共同 联系 人 列表 的 算法 。 


第 10 章 , “异步 流 处 理 : 反应 流 ?。 这 一 章 将 解释 如 何 使 用 反应 流 来 实 
现 并 发 应 用 程序 ， 而 反应 流 则 为 带 有 非 阻塞 回 压 的 异步 流 处 理 定 义 了 标 
准 。 这 种 流 的 基本 原理 在 官方 网 站 的 Reactive Streams 介 绍 页 面 上 有 明确 
说 明 ， 而 Java 9 为 其 实现 提供 了 必要 的 基础 接口 。 


第 11 章 , “探究 并 发 数据 结构 和 同步 工具 ”。 这 一 章 将 介绍 如 何 使 用 最 
重要 的 并 发 数据 结构 〈 可 用 于 并 发 应 用 程序 而 不 会 导致 数据 竞争 条 件 的 
数据 结构 )， 以 及 Java 并 发 API 中 用 于 组 织 任务 执行 的 所 有 同步 机 制 。 


第 12 章 ,， “测试 与 监视 并 发 应 用 程序 ”。 这 一 章 将 介绍 如 何 获 得 Java 并 发 
API 元 素 〈 线 程 、 锁 、 执 行 器 等 ) 的 状态 信息 。 你 还 将 学 习 如 何 使 用 
JConsole 应 用 程序 来 监视 并 发 应 用 程序 ， 以 及 如 何 使 用 MultithreadedTC 
库 和 Java Pathfinder 心 用 程序 来 测试 并 发 应 用 程序 。 


第 13 章 ，“JVM 中 的 并 发 处 理 : Clojure、 带 有 Gpars 库 的 Groovy 以 及 
Scala”。 这 一 章 将 介绍 如 何 使 用 面 同 Java 虚 拟 机 的 其 他 编程 语言 来 实现 
并 发 应 用 程序 。 你 将 学 习 如 何 使 用 Clojure、Scala 以 及 市 有 Gpars 库 的 
Groovy 等 编程 语言 所 提供 的 并 发 元 素 。 














阅读 前 所 


要 学 习 本 书 ， 你 需要 拥有 Java 编 程 语言 的 初中 级 知识 ， 最 好 还 对 并 发 概 
念 有 基本 的 了 解 。 





本 书 读者 


如 果 你 是 了 解 并 发 编程 基本 原理 的 Java 开 发 人 员 ， 同 时 又 想 成 为 Java 并 
发 API 的 专家 型 用 户 ， 以 便 开 发 出 能 够 充分 利用 计算 机 全 部 硬件 资源 的 
最 优化 应 用 程序 ， 那 么 本 书 就 非常 适合 你 。 








排版 约定 


在 本 书 中 ， 你 会 发 现 多 种 文本 样式 ， 用 于 区 分 不 同 种 类 的 信息 。 下 面 是 
一 些 文 本 样式 的 例子 ， 以 及 对 这 些 样式 含义 的 说 明 。 


正文 中 的 代码 、 数 据 库 表 名 、 用 户 输入 等 都 采用 如 下 样式 : “modify() 
方法 并 不 是 原子 的 ， 而 Account 类 也 不 是 线程 安全 的 。” 


代码 段 的 样式 如 下 。 





public void task2() { 
section2_1(); 
commonObject2.notify(); 


commonObject1.wait(); 
section2_2(); 





新 术语 和 重点 强调 的 内 容 都 以 黑体 字 表示 。 
全 ”此 图 标 表示 警告 或 重要 说 明 。 
人 ”此 图 标 表示 提示 和 技巧 。 


读者 反馈 


我 们 时 刻 欢 迎 你 的 反馈 意见 。 这 可 以 让 我 们 了 解 你 对 本 书 的 看 法 一 一 喜 
欢 什 么 或 不 喜欢 什么 。 你 的 反馈 对 我 们 很 重要 ， 它 可 以 帮助 我 们 设计 出 
真正 让 你 受益 恨 多 的 图 书 。 请 将 一 般 性 反馈 意见 直接 发 送 至 
feedback@packtpub.com， 并 在 邮件 的 主题 中 注 明 书 名 。 如 果 你 对 于 某 一 
主题 有 所 专长 ， 而 且 也 有 兴趣 撰写 或 者 参与 编写 一 本 书 ， 请 访问 
www.packtpub.com/authors 查 看 我 们 的 作者 指南 。 














客户 文 持 
现在 ， 你 已 经 是 尊贵 的 Packt 图 书 所 有 者 了 ， 我 们 通过 以 下 方式 使 你 的 
购买 物 有 所 值 。 


下 载 示 例 代 码 

你 可 以 登录 你 的 账户 从 http://www.packtpub.com 下 载 本 书 的 示例 代码 文 
件 。 如 果 你 从 其 他 地 方 购买 了 本 书 ， 可 以 访问 
http://www.packtpub.com/support 并 进行 注册 ， 我 们 会 通过 电子 邮件 将 相 
关 文 件 直接 发 送 给 你 。 可 以 通过 以 下 步 又 来 下 载 代码 文件 。 

(1) 使 用 你 的 电子 邮件 地 址 和 密码 登录 网 站 或 注册 。 

(2) 将 鼠标 放 在 顶部 的 SUPPORT 选 项 卡 上 。 

(3) 点 击 Code Downloads & Errata 选 项 。 

(4) 在 Search 框 中 输入 书 名 。 

(5) 选择 要 下 载 代 码 文件 的 那 本 书 。 

(6) 从 下 拉 沫 单 中 选择 购书 途径 

(7) 点 击 Code Download 按 钮 。 

下 载 文件 之 后 ， 请 确保 使 用 下 述 工 具 的 最 新 版 本 来 解压 或 提取 文件 夹 。 


e WinRAR/7-Zip (Windows) 。 
e Zipeg /iZip/UnRarX (Mac) 。 
e 7-Zip/PeaZip (Linux) 。 


GitHub 网 站 上 也 提供 了 本 书 配套 的 代码 ， 可 通过 网 

址 https://github.com/PacktPublishing/Mastering-Concurrency-Programming- 
with-Java-9-Second-Edition 下 载 。 通 过 网 

址 https://github.com/PacktPublishing/ 还 可 以 获得 我 们 各 类 图 书 和 视频 的 
配套 代码 。 请 检 出 它们 供 你 使 用 吧 ! 











勘误 


尽管 为 确保 内 容 的 准确 性 ， 我 们 已 经 很 谨慎 ， 但 是 错误 仍然 在 所 难免 。 
如 果 你 在 书 中 发 现 了 任何 文字 或 代码 错误 ， 请 告知 我 们 ， 我 们 将 不 胜 感 
激 。 这 样 可 以 使 其 他 读者 免 受 同样 的 困惑 ， 并 能 帮助 我 们 改进 本 书 的 后 
续 版 本 。 如 果 你 发 现 了 任何 错误 ， 请 访问 
http://www.packtpub.com/submit-errata 将 错误 告知 我 们 。! 你 需要 在 该 页 
面 上 选 定 这 本 书 ， 然 后 点 击 Errata Submission Form 链 接 ， 输 入 勘误 的 详 
细 内 容 。 当 勘误 通过 验证 后 ， 内 容 将 被 接受 ， 而 且 该 勘误 信息 将 上 传 到 
我 们 的 网 站 ， 或 者 添加 到 该 书 下 耐 Errata 部 分 的 已 有 勘误 表 列 表 当 中 。 
要 得 看 以 前 提交 的 勘误， 可 以 访问 
https://www.packtpub.com/books/content/support， 在 搜索 栏 中 输入 本 书 的 
名 称 。 相 关 信 息 将 出 现在 Errata 部 分 中 。 


1 针对 本 书 中 文 版 的 勘误 ， 请 到 http://www.ituring.com.cn/book/2018 查 看 和 提交 。 编者 注 









































次 版 问题 


对 所 有 媒体 来 说 ， 互 联网 盗版 都 是 一 个 长 期 存在 的 问题 。 在 Packt 公 
司 ， 我 们 对 自己 的 版 权 和 许可 证 的 保护 非常 严格 。 如 果 你 在 互联 网 上 通 
到 以 任何 形式 非法 复制 我 们 作品 的 行为 ， 请 立刻 回 我 们 提供 具体 地 址 或 
网 站 名 称 ， 以 帮助 我 们 采取 补救 措施 。 请 通过 copyright@packtpub.com 
联系 我 们 ， 并 且 附 上 可 疑 盗版 资料 的 链接 。 感 谢 你 帮助 我 们 保护 作者 ， 
使 我 们 能 够 带 给 你 更 有 价值 的 内 容 。 


其 他 问题 


如 果 你 对 本 书 的 任何 方面 还 存 有 疑问 ， 可 以 通过 
questions(@packtpub.com 邮 箱 联 系 我 们 ， 我 们 将 尽力 解决 。 


电子 书 
扫描 如 下 二 维 码 ， 即 可 购买 本 书 电子 版 。 





Ble 第 一 步 : 并 发 设计 原理 


计算 机 系统 的 用 户 总 是 希望 自己 的 系统 共有 更 好 的 性 能 。 他 们 想 要 获得 
质量 更 高 的 视频 、 更 好 的 视频 游戏 和 更 快 的 网 络 速度 。 几 年 前 ， 提 高 处 
理 器 的 速度 可 以 为 用 户 提供 更 好 的 性 能 。 但 是 如 今 ， 处 理 器 的 速度 并 没 
有 加 快 。 取 而 代 之 的 是 ， 处 理 器 增加 了 更 多 核心 ， 这 样 操作 系统 就 可 以 
同时 执行 多 个 任务 。 这 就 是 所 谓 的 并 友人 处 理 。 并 友 编 程 涵 盖 了 在 一 台 计 
算 机 上 同时 运行 多 个 任务 或 进程 折 需 的 所 有 工具 和 技术 ， 以 及 任务 或 进 
程 之 间 为 消除 数据 丢失 或 不 一 致 而 进行 的 通信 和 同步 。 本 章 将 探讨 如 下 


基本 的 并 发 概念 。 

并 发 应 用 程序 中 可 能 出 现 的 问题 。 
设计 并 发 算法 的 方法 论 。 
Java 并 发 API。 

并 发 设计 模式 。 

设计 并 发 算法 的 提示 和 技巧 。 








1.1 基本 的 并 及 概念 
首先 介绍 一 下 并 发 的 基本 概念 。 要 理解 本 书 其 余 的 内 容 ， 必 须 先 理解 这 


些 概 念 。 
1.1.1 并 发 与 并 行 


并 发 和 并 行 是 非常 相似 的 概念 ， 不 同 的 作者 会 给 这 两 个 概念 下 不 同 的 定 
义 。 关 于 并 发 ， 节 被 人 们 认可 的 定义 是 ， 在 单个 处 理 右 上 采用 单 核 执行 
多 个 任务 即 为 并 友 。 在 这 种 情况 下 ， 操 作 系 统 的 任务 调度 程序 会 很 快 从 
一 个 任务 切换 到 吃 一 个 任务 ， 因 此 看 起 来 所 有 任务 都 是 同时 运行 的 。 对 
于 并 行 来 说 也 有 同样 的 定义 : 同一 时 间 在 不 同 的 计算 机 、 处 理 器 或 处 理 
如 核心 上 同时 运行 多 个 任务 ， 束 是 所 谓 的 “并 行 ”。 


另 一 个 关于 并 发 的 定义 是 ， 在 系统 上 同时 运行 多 个 任务 〈 不 同 的 任务 ) 
就 是 并 及 。 而 另 一 个 关于 并 行 的 定义 是 : 同时 在 茶 个 数据 集 的 不 同 部 分 
之 上 运行 同一 任务 的 不 同 实例 吏 是 并 行 。 

关于 并 行 的 最 后 一 个 定义 是 ， 系 统 中 同时 运行 了 多 个 任务 。 关 于 并 发 的 
最 后 一 个 定义 是 ， 一 种 解释 程序 员 将 任务 和 它们 对 共享 资源 的 访问 同步 
的 不 同 技术 和 机 制 的 方法 。 


正如 你 看 到 的 ， 这 两 个 概念 非常 相似 ， 而 且 这 种 相似 性 随 着 多 核 处 理 需 
的 发 展 也 在 不 断 增强 。 


























1.1.2 ”同步 


在 并 发 中 ， 我 们 可 以 将 同步 定义 为 一 种 协调 两 个 或 更 多 任务 以 获得 预期 
结果 的 机 制 。 同 步 方 式 有 两 种 。 


。 控制 同步 : 例如 ， 当 一 个 任务 的 开始 依赖 于 力 一 个 任务 的 结束 时 ， 
第 二 个 任务 不 能 在 第 一 个 任务 完成 之 前 开始 。 

。 数据 访问 同步 ， 当 两 个 或 更 多 任务 访问 共享 变量 时 ， 在 任意 时 间 
里 ， 只 有 一 个 任务 可 以 访问 该 变量 。 


与 同步 密切 相关 的 一 个 概念 是 临界 段 。 临 界 段 是 一 段 代 码 ， 由 于 它 可 以 


访问 共 圣 资源 ， 因 此 在 任何 给 定时 间 内 ， 只 能 够 被 一 个 任务 执行 。 互 斥 
征用 来 保证 这 一 要 求 的 机 制 ， 而 且 可 以 采用 不 同 的 方式 来 实现 。 


请 记 住 ， 同 步 可 以 帮助 你 在 完成 并 发 任务 的 同时 避免 一 些 错误 本章 稍 
后 将 详 述 ) ， 但 是 它 也 为 你 的 算法 引入 了 一 些 开 销 。 你 必须 非常 仔细 地 
计算 任务 的 数量 ， 这 些 任 务 可 以 独立 执行 ， 而 无 须 并 行 算法 中 的 互通 

信 。 这 就 涉及 并 发 算法 的 粒度 。 如 打算 法 有 着 粗 粒 度 〈 低 互通 信 的 大 型 
任务 ) ， 同 步 方 面 的 开销 就 会 较 低 。 然 而 ， 也 许 你 不 会 用 到 系统 所 有 的 
核心 。 如 有 果 算 法 有 着 细 粒度 《高 互通 信 的 小 型 任务 ) ， 同 步 方面 的 开销 
就 会 很 高 ， 而 且 该 算法 的 吞吐 量 可 能 不 会 很 好 。 


并 发 系统 中 有 不 同 的 同步 机 制 。 从 理论 角度 来 看 ， 最 流行 的 机 制 如 下 。 


。 信号 量 (semaphore) : 一 种 用 于 控制 对 一 个 或 多 个 单位 资源 进行 
访问 的 机 制 。 它 有 一 个 用 于 存放 可 用 资源 数量 的 变量 ， 并 且 可 以 采 
用 两 种 原子 操作 来 管理 该 变量 的 值 。 互 斥 (mutex, mutual 
exclusion 的 简写 形式 ) 是 一 种 特殊 类 型 的 信号 量 ， 它 只 能 取 两 个 值 
〈 即 资源 空 亲 和 资源 忙 ) ， 而 且 只 有 将 互 斥 设置 为 忙 的 那个 进程 才 
可 以 释放 它 。 互 斥 可 以 通过 保护 临界 段 来 帮助 你 避免 出 现 竞 争 条 


件 。 

监视 器 : 一 种 在 共享 资源 之 上 实现 互 斥 的 机 制 。 它 有 一 个 互 斥 、 一 
个 条 件 变 量 、 两 种 操作 (等待 条 件 和 通报 条 件 ) 。 一 旦 你 通报 了 该 
条 件 ， 在 等 待 它 的 任务 中 只 有 一 个 会 继续 执行 。 


在 本 章 中 ， 你 将 要 学 习 的 与 同步 相关 的 最 后 一 个 概念 是 线程 安全 。 如 果 
共享 数据 的 所 有 用 户 都 受到 同步 机 制 的 保护 ， 那 么 代码 (或 方法 、 对 

R) 就 是 线程 安全 的 。 数 据 的 非 阻 塞 的 CAS (compare-and-swap， 比 较 
和 交换 ) 原 语 是 不 可 变 的 ， 这 样 束 可 以 在 并 发 应 用 程序 中 使 用 该 代码 而 
不 会 出 任何 问题 。 


1.1.3 不 可 变 对 象 

不 可 变 对 象 是 一 种 非常 特殊 的 对 象 。 在 其 初始 化 后 ， 不 能 修改 其 可 视 状 
Se eae en ae eee 
新 的 对 象 。 


不 可 变 对 象 的 主要 优点 在 于 它 是 线程 安全 的 。 你 可 以 在 并 发 应 用 程序 中 
使 用 它 而 不 会 出 现任 何 问题 。 
































不 可 变 对 象 的 一 个 例子 就 是 Java 中 的 String 类 。 当 你 给 一 个 String 对 
象 赋 新 值 时 ， 会 创建 一 个 新 的 String 对 象 。 


11.4 原子 操作 和 原子 变量 


与 应 用 程序 的 其 他 任务 相 比 ， 原 子 操作 是 一 种 发生 在 瞬间 的 操作 。 在 并 
I 
采用 同步 机 制 。 


原子 变量 是 一 种 通过 原子 操作 来 设置 和 获取 其 值 的 变量 。 可 以 使 用 茶 种 
同步 机 制 来 实现 一 个 原子 变量 ， 或 者 也 可 以 使 用 CAS 以 无 锁 方 式 来 实现 
一 个 原子 变量 ， 而 这 种 方式 并 不 需要 任何 同步 机 制 。 


1.1.5 ”共享 内 存 与 消息 传递 


任务 可 以 通过 两 种 不 同 的 方法 来 相互 通信 。 第 一 种 方法 是 共 至 内 存 ， 通 
常用 于 在 同一 台 计 算 机 上 运行 多 任务 的 情况 。 任 务 在 读 取 和 写 入 值 的 时 
候 使 用 相同 的 内 存 区 域 。 为 了 避免 出 现 问 题 ， 对 该 共享 内 存 的 访问 必须 
在 一 个 由 同步 机 制 保护 的 临界 段 内 完成 。 


另 一 种 同步 机 制 是 消息 传递 ， 通 沿用 于 在 不 同 计算 机 上 运行 多 任务 的 情 
形 。 当 一 个 任务 需要 与 男 一 个 任务 通信 时 ， 它 会 发 送 一 个 遵循 预定 义 协 
议 的 消息 。 如 果 发 送 方 保持 阻塞 并 等 待 啊 应 ， 那 么 该 通信 就 是 同步 的 ; 
3 



































1.2 并 发 应 用 程序 中 可 能 出 现 的 问题 


编写 并 发 应 用 程序 并 不 是 一 件 容易 的 工作 。 如 果 不 能 正确 使 用 同步 机 
制 ， 应 用 程序 中 的 任务 就 会 出 现 各 种 问题 。 本 节 将 介绍 一 些 此 类 问题 。 


1.2.1 数据 竞争 
如 果 有 两 个 或 者 多 个 任务 在 临界 段 之 外 对 一 个 共享 变量 进行 号 入 操作 ， 
也 束 是 说 没有 使 用 任何 同步 机 制 ， 那 么 应 用 程序 可 能 存在 数据 竞争 〈 也 
叫 作 竞 争 条 件 ) o 


在 这 些 情况 下 ， 应 用 程序 的 最 终结 果 可 能 取决 于 任务 的 执行 顺序 。 请 看 
下 面 的 例子 。 











package com.packt.java.concurrency; 
public class Account { 


private float balance; 


public void modify (float difference) { 


float value=this.balance; 
this. balance=value+difference; 


} 





假设 有 两 个 不 同 的 任务 执行 了 同一 个 Account 对 象 中 的 modify() 方 

法 。 由 于 任务 中 语句 的 执行 顺序 不 同 ， 最 终结 果 也 会 有 所 不 同 。 假 设 初 
始 余额 为 1000， 而 且 两 个 任务 都 调用 了 modify() 方 法 并 采用 1000 作 为 
参数 。 最 终 的 结果 应 该 是 3000， 但 是 如 果 两 个 任务 都 在 同一 时 间 执 行 了 
第 一 条 语句 ， 然 后 又 在 同一 时 间 执 行 了 第 二 条 语句 ， 那 么 最 终 的 结果 将 
是 2000。 正 如 你 看 到 的 ，modify() 方 法 不 是 原子 的 ， 而 Account 类 也 
不 是 线程 安全 的 。 


1.2.2 Hi 





当 两 个 (或 多 个 ) 任务 正在 等 待 必须 由 另 一 线程 释放 的 某 个 共享 资源 ， 
而 该 线程 又 正在 等 待 必须 由 前 述 任务 之 一 释放 的 另 一 共享 资源 时 ， 并 发 
应 用 程序 就 出 现 了 死 锁 。 当 系统 中 同时 出 现 如 下 四 种 条 件 时 ， 融 会 导致 
这 种 情形 。 我 们 将 其 称 为 Coffman 条 件 。 


oF: 死 锁 中 涉及 的 资源 必须 是 不 可 共享 的 。 一 次 只 有 一 个 任务 可 
以 使 用 该 资源 。 

。 占有 并 等 待 条 件 ; 一 个 任务 在 占有 茶 一 互 斥 的 资源 时 又 请 求 刀 一 互 
斥 的 资源 。 当 它 在 等 竺 时， 不 会 释放 任何 资源 。 

。 AAR: 资源 只 能 被 那些 持 有 它们 的 任务 释放 。 

。 循环 等 待 : 任务 1 正 等 竺 任务 2 所 占有 的 资源 ， 而 任务 2 又 正在 等 待 
任务 3 所 占有 的 资源 ， 以 此 类 推 ， 最 终 任务 n 又 在 等 待 由 任务 1 所 所 
有 的 资源 ， 这 样 就 出 现 了 循环 等 竺 。 


有 一 些 机 制 可 以 用 来 避免 死 锁 。 


。 ARCI]: 这 是 最 常用 的 机 制 。 你 可 以 假设 自己 的 系统 绝 不 会 出 现 
死 锁 ， 而 如 果 发 生死 锁 ， 结果 束 是 你 可 以 集 止 应 用 程序 并 且 重 新 执 
TES 

。 检测 : 系统 中 有 一 项 专门 分 析 系 统 状态 的 任务 ， 可 以 检测 是 否 发 生 
了 和 死 锁 。 如 果 它 检 调 到 了 和 有 死 锁 ， 可 以 采取 一 些 措 施 来 修复 该 问题 ， 
例如 ， 结 束 东 个 任务 或 者 强制 释放 茶 一 资源 。 

。 了 预防; 如 果 你 想 防 止 系 统 出 现 死 锁 ， 就 必须 预防 Cofftman 条 件 中 的 
一 条 或 多 条 出 现 。 

。 规避 : 如 宁 你 可 以 在 东 一 任务 执行 之 前 得 到 该 任务 所 使 用 资源 的 相 
关 信 息 ， 那 么 死 锁 是 可 以 规避 的 。 当 一 个 任务 要 开始 执行 时 ， 你 可 
以 对 系统 中 空闲 的 资源 和 任务 所 需 的 资源 进行 分 机 ， 这 样 就 可 以 判 
WEA xe BBE TT IRIT o 

















1.2.3 jh 


如 果 系 统 中 有 两 个 任务 ， 它 们 总 是 因 对 方 的 行为 而 改变 上 自己 的 状态 ， 那 
I 
下 执行 。 


例如 ， 有 两 个 任务 : 任务 1 和 任务 2， 它 们 都 需要 用 到 两 个 资源 ， 资 源 1 
和 资源 2。 假 设 任 务 1 对 资源 1 加 了 一 个 锁 ， 而 任务 2 对 资源 2 加 了 一 个 
锁 。 当 它们 无 法 访问 所 需 的 资源 时 ， 就 会 释放 自己 的 资源 并 且 重 新 开始 











循环。 这 种 情况 可 以 无 限 地 持续 下 去 ， 所 以 这 两 个 任务 都 不 会 结束 自己 
的 执行 过 程 。 


124 资源 不 足 


当 茶 个 任务 在 系统 中 无 法 获取 维持 其 继续 执行 所 需 的 资源 时 ， 束 会 出 现 
资源 人 不足。 当 有 多 个 任务 在 等 得 茶 一 资源 且 该 资源 被 释放 时 ， 系 统 需 要 
选择 下 一 个 可 以 使 用 该 资源 的 任务 。 如 果 你 的 系统 中 没有 设计 良好 的 算 
法 ， 那 么 系统 中 有 些 线程 很 可 能 要 为 获取 该 资源 而 等 待 很 长 时 间 。 


要 解决 这 一 问题 就 要 确保 公平 原则 。 所 有 等 待 某 一 资源 的 任务 必须 在 某 

一 给 定时 间 之 内 占有 该 资源 。 可 选 方 采 之 一 就 是 实现 一 个 算法 ， 在 选择 
下 一 个 将 占有 某 一 资源 的 任务 时 ， 对 任务 已 等 竺 该 资源 的 时 间 因 系 加 以 

ee te an eee er enero 
吐 量 。 


1.2.5 ”优先 权 反 转 
当 一 个 低 优先 权 的 任务 持 有 了 一 个 高 优先 级 任务 所 需 的 资源 时 ， 束 会 发 


人 
行 。 








1.3 设计 并 及 算法 的 方法 论 


本 市 ， 我 们 将 提出 一 个 五 步骤 的 方法 论 来 获得 某 一 串 行 算法 的 并 发 版 
本 。 该 方法 论 基于 Intel 公 司 在 其 “Threading Methodology: Principles and 
Practices” 文 档 中 给 出 的 方法 论 。 


1.3.1 EA: 算法 的 一 个 串 行 版 本 


我 们 实现 并 发 算法 的 起 点 是 该 算法 的 一 个 串 行 版 本 。 当 然 ， 也 可 以 从 头 
开始 设计 一 个 并 发 算法 。 不 过 我 认为 ， 算 法 的 串 行 版 本 有 两 个 方面 的 好 
处 。 


。 我 们 可 以 使 用 串 行 算法 来 测试 并 发 算法 是 否 生成 了 正确 的 结果 。 当 
接收 同样 的 输入 时 ， 这 两 个 版 本 的 算法 必须 生成 同样 的 输出 结果 ， 
F a a 
以 的 条 件 。 

。 我 们 可 以 度量 这 两 个 算法 的 知 吐 量 ， 以 此 来 观察 使 用 并 发 处 理 是 否 
能 够 改善 啊 应 时 间或 者 提升 算法 一 次 性 所 能 处 理 的 数据 量 。 








1.3.2 14: 分 析 


在 这 一 步 中 ， 我 们 将 分 析 算 法 的 串 行 版 本 来 寻找 它 的 代码 中 有 哪些 部 分 
可 以 以 并 行 方式 执行 。 我 们 应 该 特别 关注 那些 执行 过 程 花 费时 间 最 多 或 
人 
性 能 改进 。 


对 这 一 过 程 而 言 ， 比 较 好 的 候选 方案 就 是 循环 排 介 ， 让 其 中 的 一 个 步 又 
独立 于 其 他 步骤 ， 或 者 让 其 中 茶 些 部 分 的 代码 独立 于 其 他 部 分 的 代码 
(例如 一 个 用 于 初始 化 茶 个 应 用 程序 的 算法 ， 它 打开 与 数据 库 的 连接 ， 
Aa 
DE 





1.3.3 S227: 设计 


一 旦 你 知道 了 要 对 哪些 部 分 的 代码 并 行 处 理 ， 就 要 决定 如 何 对 其 进行 并 
行 化 处 理 了 。 


代码 的 变化 将 影响 应 用 程序 的 两 个 主要 部 分 。 


。 代码 的 结构 。 
。 数据 结构 的 组 织 。 


你 可 以 采用 两 种 方式 来 完成 这 一 任务 。 


。 任务 分 解 : 当 你 将 代码 划分 成 两 个 或 多 个 可 以 立刻 执行 的 独立 任务 
时 ， 就 是 在 进行 任务 分 解 。 其 中 有 些 任 务 可 能 必须 按照 某 种 给 定 的 
顺序 来 执行 ， 或 者 必须 在 同一 点 上 等 待 。 你 必须 使 用 同步 机 制 来 实 
现 这 样 的 行为 。 

数据 分 解 : 当 使 用 同一 任务 的 多 个 实例 分 别 对 数据 集 的 一 个 子 集 进 
行 处 理 时 ， 就 是 在 进行 数据 分 解 。 该 数据 集 是 一 个 共享 资源 ， 因 
此 ， 如 果 这 些 任 务 需 要 修改 数据 ， 那 你 必须 实现 一 个 临界 段 来 保护 
对 数据 的 访问 。 


另 一 个 必须 牢记 的 要 点 是 解决 方案 的 粒度 。 实 现 一 个 算法 的 并 发 版 本 ， 
其 目标 在 于 实现 性 能 的 改善 ， 因 此 你 应 该 使 用 所 有 可 用 的 处 理 絮 或 核 。 
另 一 方面 ， 当 你 采用 茶 种 同步 机 制 时 ， 就 引入 了 一 些 额外 的 必须 执行 的 
指令 。 如 果 你 将 算法 分 割 成 很 多 小 任务 《〈 细 粒度 ) ， 实 现 同步 机 制 所 需 
额外 引入 的 代码 就 会 导致 性 能 下 降 。 如 果 你 将 算法 分 割 成 比 核 数 还 少 的 
TES GERME) ， 那 么 就 没有 充分 利用 全 部 资源 。 同 样 ， 你 还 要 考虑 每 
个 线程 都 必须 要 做 的 工作 ， 尤 其 是 当 你 实现 细 粒 度 解决 方案 时 。 如 果 某 
个 任务 的 执行 时 间 比 其 他 任务 长 ， 那 么 该 任务 将 决定 整个 应 用 程序 的 执 
行 时 间 。 你 需要 在 这 两 点 之 间 找 到 平衡 。 











1.3.4 第 3 步 : 实现 


下 一 步 就 是 使 用 某 种 编程 语言 来 实现 并 发 算法 了 ， 而 且 如 果 必 要 ， 还 要 
用 到 线程 库 。 在 本 书 的 例子 中 ， 我 们 将 使 用 Java 语 言 来 实现 所 有 算法 。 
1.3.5 ”第 4 步 : 测试 

在 完成 实现 过 程 之 后 ， 你 应 该 对 该 并 行 算法 进行 测试 。 如 果 你 有 了 算法 
Bop ee erat ete Ce Yoana rege ed one omer 
正确 。 


测试 和 调试 一 个 并 行程 序 的 具体 实现 是 非常 困难 的 任务 ， 因 为 应 用 程序 














中 不 同 任务 的 执行 顺序 是 无 法 保证 的 。 在 第 12 章 中 ， 你 将 学 到 一 些 提 


ZN» 


技巧 和 工具 ， 从 而 可 以 高 效 地 完成 这 些 任务 。 


1.3.6 第 5 步 : 调整 


最 后 一 步 是 对 比 并 行 算法 和 串 行 算 法 的 否 吐 量 。 如 果 结 果 并 未 达到 预 


期 ， 





那么 你 必须 重新 审查 该 算法 ， 碍 找 造成 并 行 算法 性 能 较 差 的 原因 。 


你 也 可 以 测试 该 算法 的 不 同 参 数 例 如 任务 的 粒度 或 数量 ) ， 从 而 找到 
最 佳 配置 。 


还 有 其 他 一 些 指 标 可 用 来 评估 通过 使 算法 并 行 处 理 可 能 获得 的 性 能 改 


下 面 给 出 的 是 最 常见 的 三 个 指标 。 


加 速 比 (speedup〉: 这 是 一 个 用 于 评价 并 行 版 算法 和 串 行 版 算法 
之 间 相 对 性 能 改进 情况 的 指标 。 

Speedup = Trequential 

HP, Tequena E Sei P TAA T IN TAD, M Teoncuren E SIA FPA 
版 的 执行 时 间 。 

Amdahl 定 律 : 该 定律 用 于 计算 对 算法 并 行 化 处 理 之 后 可 获得 的 最 
大 期 望 改进 。 


1 
Speedup S 


PRE 

ae 

其 中 ,，P 是 可 以 进行 并 行 化 处 理 的 代码 的 百分比 ， 而 N 是 你 准备 用 
于 执行 该 算法 的 计算 机 的 核 数 。 


例如 ， 如 果 你 可 以 对 75% 的 代码 进行 并 行 化 处 理 并 且 有 四 个 核 ， 那 
么 最 大 加 速 比 可 按照 如 下 公式 进行 计算 。 


| 
X 0.44 


TE T T —_-_ 
1—0.75) +| 一 一 
( ) | 








Gustafson-Barsis 定 律 1， Amdahl 定 律 具 有 一 定 缺 陷 。 它 假设 当 你 增 
加 核 的 数量 时 输入 数据 集 是 相同 的 ， 但 是 一 般 来 说 ， 当 拥有 更 多 的 
核 时 ， 你 就 想 处 理 更 多 的 数据 。Gustafson 定 律 认 为 ， 当 你 有 更 多 可 
用 的 核 时 ， 可 同时 解决 的 问题 规模 就 越 大 ， 其 公式 如 下 


Speedup = P— ax (P— 1) 
其 中 ,NN ARB, MP 为 可 并 行 处 理 代码 所 占 的 百分比 。 


如 果 我 们 使 用 之 前 的 同一 示例 ， 那 么 Gustafson 定 律 计 算出 的 可 伸缩 
加 速 比 如 下 。 


Speedup = 4 — 0.25 x (3) = 3.25 





1 也 称 作 Gustafson 定 律 。 一 一 译 者 注 





13.7 Aw 


在 本 市 中 ， 你 知晓 了 在 对 某 一 串 行 算法 进行 并 行 化 处 理 时 必须 考虑 的 问 
题 。 





首先 ， 并 非 每 一 个 算法 都 可 以 进行 并 行 化 处 理 。 例 如 ， 如 果 你 要 执行 一 
个 人 循环， 其 每 次 达 代 的 结果 取决 于 前 一 次 达 代 的 结果 ， 那 么 你 就 不 能 对 
该 循环 进行 并 行 化 处 理 。 基 于 同样 的 原因 ， 递 归 算 法 是 无 法 进行 并 行 化 
处 理 的 男 一 个 例子 。 


你 要 牢记 的 力 一 重要 事项 是 : 对 性 能 良好 的 串 行 版 算法 实现 并 行 处 理 ， 
实际 上 是 个 糟 料 的 出 及 点 。 如 果 在 你 开始 对 菏 个 算法 进行 并 行 化 处 理 
时 ， 发 现 并 不 容易 找到 代码 的 独立 部 分 ， 那 么 你 就 要 找 一 找 该 算法 的 其 
他 版 本 ， 并 且 验 证 一 下 该 版 本 的 算法 是 否 能 够 很 方便 地 进行 并 行 化 处 
Hi; 


最 后 ， 当 你 实现 一 个 并 发 应 用 程序 时 《从 头 开 始 或 者 基于 一 个 串 行 算 
法 ) ， 必 须要 考虑 下 面 几 点 。 


效率 : 并 行 版 算法 花费 的 时 间 必 须 比 串 行 版 算法 少 。 对 算法 进行 并 
行 处 理 的 首要 目标 就 是 实现 运行 时 间 比 串 行 版 算法 少 ， 或 者 说 它 能 
够 在 相同 时 间 内 处 理 更 多 的 数据 。 

简单 : 当 你 实现 一 个 算法 〈 无 论 是 否 为 并 行 算法 ) 时 ， 必 须 尽 可 能 
0 
2D D TE o 

可 移植 性 : 你 的 并 行 算法 应 该 只 需要 很 少 的 更 改 就 能 够 在 不 同 的 平 
台 上 执行 。 因 为 在 本 书 中 使 用 Java 语 言 ， 所 以 做 到 这 一 点 非常 简 
单 。 有 了 Java， 你 就 可 以 在 每 一 种 操作 系统 中 执行 程序 而 无 须 任 何 
更 改 《 除 非 因 为 程序 实现 而 必须 更 改 ) 。 

伸缩 性 : 如 果 你 增加 了 核 的 数目 ， 算 法 会 发 生 什么 情况 ?正如 前 面 
提 到 的 ， 你 应 该 使 用 所 有 可 用 的 核 ， 这 样 一 来 你 的 算法 就 能 利用 所 
有 可 用 的 资源 。 











1.4 Java 并 发 API 

Java 编 程 语言 含有 非常 丰富 的 并 发 API。 它 含有 管理 基本 并 发 元 素 所 需 
的 类 ， 例 如 Thread、Lock 和 Semaphore 等 类 ， 以 及 用 于 实现 非常 高 层 
司 步 机 制 的 类 ， 例 如 执行 器 框架 或 新 增加 的 并 行 Stream API. 

本 节 将 泗 新 形成 并 发 API 的 基本 类 ，。 

1.4.1 基本 并 发 类 

并 发 API 的 基本 类 如 下 。 


。Thread 类 : 该 类 描述 了 执行 并 发 Java 必 用 程序 的 所 有 线程 。 
e Runnable 接 口 ， 这 是 Java 中 创建 并 发 应 用 程序 的 男 一 种 方式 。 














ThreadLocal 类 : 该 类 用 于 存放 从 属于 某 一 线程 的 变量 。 
ThreadFactory 接 口 : 这 是 实现 Factory 设 计 模 式 的 基 类 ， 你 可 以 
用 它 来 创建 定制 线程 。 


1.4.2 ”同步 机 制 
Java 并 发 API 包 括 多 种 同步 机 制 ， 可 以 支持 你 : 


。 定义 用 于 访问 作 一 共 诗 资源 的 临界 段 ; 
。 在 茶 一 共同 点 上 同步 不 同 的 任务 。 


下 面 是 最 重要 的 同步 机 制 。 


e synchronized 关 键 字 : synchronized 关 键 字 允许 你 在 某 个 代码 

块 或 者 某 个 完整 的 方法 中 定义 一 个 临界 段 。 

Lock 接 口 : Lock 提 供 了 比 synchronized 关 键 字 更 为 灵活 的 同步 操 

作 。Lock 接 口 有 多 种 不 同类 型 : ReentrantLock 用 于 实现 一 个 可 

与 某 种 条 件 相 关联 的 锁 ;，ReentrantReadWriteLock 将 读 写 操作 分 

离开 来 ， StampedLock 是 Java 8 中 增加 的 一 种 新 特性 ， 它 包括 三 种 

控制 读 / 写 访问 的 模式 。 

e Semaphore 类 : 该 类 通过 实现 经 典 的 信号 量 机 制 来 实现 同步 。Java 
支持 二 进 制 信号 量 和 一 般 信 号 量 。 




















CountDownLatch 类 : 该 类 人 允许 一 个 任务 等 待 多 项 操作 的 结 
CyclicBarrier 类 : 该 类 允许 多 线程 在 某 一 共同 点 上 进行 同步 。 
Phaser 类 : 该 类 允许 你 控制 那些 分 割 成 多 个 阶段 的 任务 的 执行 。 
在 所 有 任务 都 完成 当前 阶段 之 前 ， 任 何 任 务 都 不 能 进入 下 一 阶段 。 


1.4.3 ”执行 器 
执行 器 框架 是 在 实现 并 发 任务 时 将 线程 的 创建 和 管理 分 制 开 来 的 一 种 机 


制 |。 





你 不 必 担心 线程 的 创建 和 管理 ， 只 需要 关心 任务 的 创建 并 且 将 其 用 


送 给 执行 嚣 。 该 框架 中 涉及 的 主要 类 如 下 。 





Executor 接 口 和 ExecutorService 接 口 : 它们 包含 了 所 有 执行 器 
共有 的 execute( ) 方 法 。 

ThreadPoolExecutor 类 : 该 类 允许 你 获取 一 个 含有 线程 池 的 执行 
器 ， 而 且 可 以 定义 并 行 任务 的 最 大 数目 。 
ScheduledThreadPoo1Executor 类 : 这 是 一 种 特殊 的 执行 器 ， 可 
以 使 你 在 某 段 延迟 之 后 执行 任务 或 者 周期 性 执行 任务 。 

Executors: 该 类 使 执行 器 的 创建 更 为 容易 。 
Callable 接 口 : 这 是 Runnab1le 接 口 的 替代 接口 可 返回 值 的 一 
个 单独 的 任务 。 

Future 接 口 : 该 接口 包含 了 一 些 能 获取 Callable 接 口 返回 值 并 且 
控制 其 状态 的 方法 。 








1.4.4 ”Fork/Join 框 架 


Fork/Join 框 架 定义 了 一 种 特殊 的 执行 器 ， 尤 其 针对 采用 分 治 方法 进行 求 
解 的 问题 。 针 对 解决 这 类 问题 的 并 发 任务 ， 它 还 提供 了 一 种 优化 其 执行 
的 机 制 。Fork/Join 是 为 细 粒 度 并 行 处 理 量 身 定制 的 ， 因 为 它 的 开销 非常 


小 ， 


这 也 是 将 新 任务 加 入 队列 中 并 且 按 照 队列 排序 执行 任务 的 需要 。 该 


框架 涉及 的 主要 类 和 接口 如 下 。 


e ForkJoinPool: 该 类 实现 了 要 用 于 运行 任务 的 执行 器 。 
e ForkJoinTask: 这 是 一 个 可 以 在 ForkJoinPool 类 中 执行 的 任务 。 
e ForkJoinWorkerThread: 这 是 一 个 准备 在 ForkJoinPool 类 中 执 





行 任务 的 线程 。 


1.4.5 ”并 行 流 


流 和 lambda 表 达 式 可 能 是 Java 8 中 最 重要 的 两 个 新 特性 。 流 已 经 被 增加 
为 Collection 接 口 和 其 他 一 些 数据 源 的 方法 ， 它 允许 处 理 某 一 数据 结 
元 素 、 生 成 新 的 结构 、 算 选 数据 和 使 用 MapReduce 方 法 来 实现 
算法 。 


并 行 流 是 一 种 特殊 的 流 ， 它 以 一 种 并 行 方式 实现 其 操作 。 使 用 并 行 流 时 
涉及 的 最 重要 的 元 系 如 下 。 


Stream 接 口 : 该 接口 定义 了 所 有 可 以 在 一 个 流 上 实施 的 操作 。 
Optional: 这 是 一 个 容器 对 象 ， 可 能 (也 可 能 不 ) 包含 一 个 非 空 
值 。 














Collectors: 该 类 实现 了 约 简 (reduction) 操作 ， 而 该 操作 可 作 
为 流 操作 序列 的 一 部 分 使 用 。 

lambda 表 达 式 : 流 被 认为 是 可 以 处 理 lambda 表 达 式 的 。 大 多 数 流 
ee 这 让 你 可 以 实现 更 为 紧 
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14.6 ”并 发 数据 结构 


Java API 中 的 常见 数据 结构 (例如 ArrayList、Hashtable 等 ) 并 不 能 
在 并 发 应 用 程序 中 使 用 ， 除 非 采 用 某 种 外 部 同步 机 制 。 但 是 如 果 你 采用 
了 某 种 同步 机 制 ， 应 用 程序 就 会 增加 大 量 的 额外 计算 时 间 。 而 如 果 你 不 
采用 同步 机 制 ， 那 么 应 用 程序 中 很 可 能 出 现 竞 争 条 件 。 如 有 果 你 在 多 个 线 
程 中 修改 数据 ， 那 么 就 会 出 现 竞 争 条 件 ， 你 可 能 会 面 对 各 种 异 弟 《例如 
ConcurrentModificationException 和 
ArrayIndexOutOfBoundsException) ， 出 现 隐 性 数据 丢失 ， 或 者 应 
用 程序 会 陷入 死 循环 。 


Java 并 及 API 中 含有 大 量 可 以 在 并 发 应 用 中 使 用 而 没有 风险 的 数据 结 
构 。 我 们 将 它们 分 为 以 下 两 大 类 别 。 


o 阻塞 型 数据 结构 : 这 些 数据 结构 舍 有 一 些 能 够 阻 豆 调用 任务 的 方 
法 ， 例 如 ， 当 数据 结构 为 空 而 你 又 要 从 中 获取 值 时 。 

o 非 阻塞 型 数据 结构 : 如 宋 操 作 可 以 立即 进行 ， 它 并 不 会 阻 豆 调用 任 
务 。 人 和 否则， 它 将 返回 null 值 或 者 抛 出 寞 常 。 


下 面 是 其 中 的 一 些 数据 结构 。 














ConcurrentLinkedDeque: 这 是 一 个 非 阻 塞 型 的 列表 。 
ConcurrentLinkedQueue: 这 是 一 个 非 阻 塞 型 的 队列 。 
LinkedBlockingDeque: 这 是 一 个 阻塞 型 的 列表 。 
LinkedBlockingQueue: 这 是 一 个 阻塞 型 的 队列 。 
PriorityBlockingQueue: 这 是 一 个 基于 优先 级 对 元 素 进 行 排序 
的 阻塞 型 队列 。 

ConcurrentSkipListMap: 这 是 一 个 非 阻塞 型 的 NavigableMap。 





e ConcurrentHashMap: 这 是 一 个 非 阻 塞 型 的 哈 希 表 。 
e AtomicBoolean、AtomicInteger、AtomicLong 和 


AtomicReference: 这 些 是 基本 Java 数 据 类 型 的 原子 实现 。 


1.5 并 发 设计 模式 


在 软件 工程 中 ， 设 计 模 式 是 针对 某 一 类 共同 问题 的 解决 方案 。 这 种 解决 
方案 被 多 次 使 用 ， 而 且 已 经 被 证 明 是 针对 该 类 问题 的 最 优 解决 方案 。 
当 你 需要 解决 这 其 中 的 某 个 问题 ， 束 可 以 使 用 它们 来 避免 做 重复 工作 。 
其 中 ， 单 例 模 式 〈Singleton) 和 工厂 模式 (Factory) 是 几乎 每 个 应 用 程 
序 中 都 要 用 到 的 通用 设计 模式 。 


并 发 处 理 也 有 其 自己 的 设计 模式 。 本 市 ， 我 们 将 介绍 一 些 最 常用 的 并 发 
设计 模式 ， 以 及 它们 的 Java 语 言 实现 。 














1.5.1 信号 模式 


这 种 设计 模式 介绍 了 如 何 实现 某 一 任务 回 另 一 任务 通告 某 一 事件 的 情 
形 。 实 现 这 种 设计 模式 最 简单 的 方式 是 采用 信和 号 量 或 者 互 斥 ， 使 用 Java 
语言 中 的 ReentrantLock 类 或 semaphore 类 即 可 ， 甚 至 可 以 采 

用 Object 类 中 的 wait() 方 法 和 notify() 方 法 。 


请 看 下 面 的 例子 。 














public void task1() { 
section1(); 
commonObject.notify(); 
} 


public void task2() { 
commonObject.wait(); 
section2(); 


} 





在 上 述 情 况 下 ，section2() 方 法 总 是 在 section1() 方 法 之 后 执行 。 
1.5.2 会 合 模 式 
这 种 设计 模式 是 信号 模式 的 推广 。 在 这 种 情况 下 ， 第 一 个 任务 将 等 待 第 


二 个 任务 的 某 一 事件 ， 而 第 二 个 任务 又 在 等 待 第 一 个 任务 的 某 一 事件 。 
其 解决 方案 和 信号 模式 非常 相似 ， 只 不 过 在 这 种 情况 下 ， 你 必须 使 用 两 








个 对 象 而 不 是 一 个 。 
请 看 下 面 的 例子 。 


public void task1() { 
section1_1(); 
commonObject1.notify(); 
commonObject2.wait(); 
section1_2(); 


public void task2() { 
section2_1(); 
commonObject2.notify(); 
commonObject1.wait(); 
section2_2(); 








在 上 述 情 况 下 ，section2_2() 方 法 总 是 会 在 section1_1() 方 法 之 后 执 
行 ， 而 section1 2() 方 法 总 是 会 在 section2_1() 方 法 之 后 执行 。 仔 细 
想 想 就 会 有 发现， 如 末 你 将 对 wait() 方 法 的 调用 放 在 对 notify() 方 法 的 
调用 之 前 ， 那 么 就 会 出 现 死 锁 。 


1.5.3 互 斥 模式 

互 斥 这 种 机 制 可 以 用 来 实现 临界 段 ， 确 保 操 作 相 互 排斥 。 这 束 是 说 ， 一 
次 只 有 一 个 任务 可 以 执行 由 互 斥 机 制 保护 的 代码 片段 。 在 Java 中 ， 你 可 
以 使 用 synchronized 关 键 字 〈 这 人 允许 你 保护 一 段 代 码 或 者 一 个 完整 的 
方法 ) 、ReentrantLock 类 或 者 Semaphore 类 来 实现 一 个 临界 段 。 


让 我 们 看 看 下 面 的 例子 。 





public void task() { 
preCriticalSection(); 
try { 
lockObject.lock() // 临界 段 开始 
criticalSection(); 
catch (Exception e) { 


finally { 
lockObject.unlock(); // 临界 段 结束 
postCriticalSection(); 








15.4 多 元 复 用 模式 


多 元 复 用 设计 模式 是 互 斥 机 制 的 推广 。 在 这 种 情形 下 ， 规 定数 目的 任务 
可 以 同时 执行 临界 段 。 这 很 有 用 ， 例 如 ， 当 你 拥有 某 一 资源 的 多 个 副本 
时 。 在 Java 中 实现 这 种 设计 模式 最 简单 的 方式 是 使 用 Semaphore 类 ， 并 
且 使 用 可 同时 执行 临界 段 的 任务 数 来 初始 化 该 类 。 


请 看 如 下 示例 。 





public void task() { 
preCriticalSection(); 
semaphoreObject.acquire() ; 


criticalSection(); 
semaphoreObject.release() ; 
postCriticalSection(); 





1.5.5 ”栅栏 模式 

这 种 设计 模式 解释 了 如 何在 某 一 共同 点 上 实现 任务 同步 的 情形 。 每 个 任 
务 都 必须 等 到 所 有 任务 都 到 达 同 步 点 后 才能 继续 执行 。Java 并 发 API 提 
供 了 CyclicBarrier 类 ， 它 是 这 种 设计 模式 的 一 个 实现 。 


请 看 下 面 的 例子 。 








public void task() { 
preSyncPoint(); 
barrierObject.await(); 


postSyncPoint(); 
} 


1.5.6 ”双重 检查 锁定 模式 
当 你 获得 某 个 锁 之 后 要 检查 某 项 条 件 时 ， 这 种 设计 模式 可 以 为 解决 该 问 














题 提 供 方 采 。 如 果 访 条件 为 假 ， 你 实际 上 也 已 经 花费 了 获取 到 理想 的 锁 
所 需 的 开销 。 对 象 的 延迟 初始 化 就 是 针对 这 种 情形 的 例子 。 如 果 你 有 一 
个 类 实现 了 单 例 设计 模式 ， 那 可 能 会 有 如 下 这 样 的 代码 。 


public class Singleton{ 


private static Singleton reference; 
private static final Lock lock=new ReentrantLock(); 


public static Singleton getReference() { 
try { 
lock. lock(); 
if (reference==null) { 
reference=new Object(); 
} 
} catch (Exception e) { 
System.out.printlin(e); 
} finally { 
lock.unlock(); 


} 


return reference; 





一 种 可 能 的 解决 方案 就 是 在 条 件 之 中 包含 锁 。 


public class Singleton{ 
private Object reference; 
private Lock lock=new ReentrantLock(); 
public Object getReference() { 
if (reference==null) { 
lock. lock(); 
if (reference == null) { 
reference=new Object(); 
} 
lock.unlock(); 
} 
return reference; 
} 
} 





该 解决 方案 仍然 存在 问题 。 如 果 两 个 任务 同时 检查 条 件 ， 你 将 要 创建 两 
个 对 象 。 解 决 这 一 问题 的 最 佳 方案 束 是 不 使 用 任何 显 式 的 同步 机 制 。 








public class Singleton { 


private static class LazySingleton { 
private static final Singleton INSTANCE = new Singleton(); 
} 


public static Singleton getSingleton() { 


return LazySingleton. INSTANCE; 
} 
} 


1.5.7 读 - 写 锁 模 式 


当 你 使 用 锁 来 保护 对 茶 个 共 理 变 量 的 访问 时 ， 只 有 一 个 任务 可 以 访问 该 
变量 ， 这 和 你 将 要 对 该 变量 实施 的 操作 是 相互 独立 的 。 有 时 ， 你 的 变量 
需要 修改 的 次 数 很 少 ， 却 需要 读 取 很 多 次 。 这 种 情况 下 ， 锁 的 性 能 融会 
比较 着 了 ， 因 为 所 有 读 操 作 都 可 以 并 发 进行 而 不 会 融 来 任何 问题 。 为 解 
决 这 样 的 问题 ， 出 现 了 读 - 写 锁 设计 模式 。 这 种 模式 定义 了 一 种 特殊 的 
锁 ， 它 含有 两 个 内 部 锁 : 一 个 用 于 该 操作 ， 而 另 一 个 用 于 与 操作 。 该 锁 
的 行为 特点 如 下 所 示 。 


© 如 果 一 个 任务 正在 执行 读 操 作 而 为 一 任务 想 要 进行 为 一 个 读 操 作 ， 
那么 妨 一 任务 可 以 进行 该 操作 。 

© 如 果 一 个 任务 正在 执行 读 操 作 而 为 一 任务 想 要 进行 写 操 作 ， 那 么 田 
一 任务 将 被 阻 窒 ， 直 到 所 有 的 读 取 方 都 完成 操作 为 止 。 

。 如 果 一 个 任务 正在 执行 写 操 作 而 为 一 任务 想 要 执行 妨 一 操作 〈 读 或 
者 写 ) ， 那 么 男 一 任务 将 被 阻 暑 ， 直 到 写 入 方 完成 操作 为 止 。 


Java 并 发 API 中 含有 ReentrantReadWNriteLock 类 ， 该 类 实现 了 这 种 设 
计 模 式 。 如 果 你 想 从 头 开始 实 现 该 设计 模式 ， 就 必须 非常 注意 读 任 务 和 
写 任务 之 间 的 优先 级 。 如 果 有 太 多 读 任 务 存在 ， 那 么 写 任 务 等 待 的 时 间 
MERK. 


1.5.8 ”线程 池 模 式 


这 种 设计 模式 试图 减少 为 执行 每 个 任务 而 创建 线程 所 引入 的 开销 。 该 模 
式 由 一 个 线程 集合 和 一 个 竺 执行 的 任务 队列 构成 。 线 程 集合 通 第 具有 固 
定 大 小 。 当 一 个 线程 完成 了 茶 个 任务 的 执行 时 ， 它 本 身 并 不 会 结束 执 

行 ， 它 要 寻找 队列 中 的 另 一 个 任务 。 如 果 存 在 另 一 个 任务 ， 那 么 它 将 执 
行 该 任务 。 如 果 不 存 在 另 一 个 任务 ， 那 么 该 线程 将 一 直 等 待 ， 直 到 有 任 
务 插入 队列 中 为 止 ， 但 是 线程 本 号 不 会 被 终结 。 


Java 并 发 API 包 含 一 些 实现 ExecutorService 接 口 的 类 ， 该 接口 内 部 采 
用 了 一 个 线程 池 。 














1.5.9 ”线程 局 部 存储 模式 


这 种 设计 模式 定义 了 如 何 使 用 局 部 从 属于 任务 的 全 局 变量 或 静态 变量 。 
当 在 某 个 类 中 有 一 个 静态 属性 时 ， 那 么 该 类 的 所 有 对 象 都 会 访问 该 属性 
URR 如 果 使 用 了 线程 局 部 存储 ， 则 每 个 线程 都 会 访问 该 变量 的 
一 个 不 同 实例 。 


Java 并 发 API 包 含 了 ThreadLocal 类 ， 该 类 实现 了 这 种 设计 模式 。 














16 ”设计 并 发 算法 的 提示 和 拉 蕊 


本 节 汇 编 了 一 些 需 要 你 牢记 的 提示 和 技巧 ， 它 们 可 以 帮助 你 设计 出 民 好 
的 并 发 应 用 程序 。 


1.6.1 正确 识别 独立 任务 


你 只 能 执行 那些 相互 独立 的 并 发 任务 。 如 采 两 个 或 多 个 任务 之 间 存 在 某 
种 顺序 依赖 ， 你 可 能 没 兴 趣 答 试 以 并 发 方式 执行 它们 ， 同 时 引入 东 种 同 
步 机 制 来 保证 执行 顺序 。 这 些 任 务 将 以 串 行 方式 执行 ， 而 你 还 必须 使 用 
同步 机 制 。 为 一 种 不 同 的 场景 是 ， 你 的 任务 具有 一 些 先决 条 件 ， 但 是 这 
些 先决 条 件 都 是 相互 独立 的 。 在 这 种 情形 下 ， 你 可 以 以 并 发 方式 执行 这 
些 先决 条 件 ， 然 后 在 完成 先决 条 件 后 使 用 一 个 同步 类 来 控制 任务 的 执 
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的 数据 都 是 由 它 之 前 的 步骤 生成 的 ， 或 者 存在 一 些 需要 从 一 个 步骤 流转 
到 下 一 步骤 的 状态 信息 。 


16.2 ”在 尽 可 能 高 的 层面 上 实施 并 发 处 理 


像 Java 并 发 API 这 样 丰富 的 线程 处 理 API， 为 你 在 应 用 程序 中 实现 并 发 处 
理 提 供 了 不 同 的 类 。 对 于 Java 来 说 ， 你 可 以 使 用 Thread 类 或 Lock 关 来 
控制 线程 的 创建 和 同步 ， 不 过 Java 也 提供 了 高 层次 的 并 发 处 理 对 象 ， 例 
如 执行 器 或 Fork/Join 框 架 ， 它 们 都 可 以 支持 你 执行 并 发 任务 。 这 种 高 层 
机 制 有 下 述 好 处 。 


。 你 不 需要 担心 线程 的 创建 和 管理 ， 只 需要 创建 并 且 发 送 任务 以 使 其 
执行 。Java 并 发 API 会 帮助 你 控制 线程 的 创建 和 管理 。 

它们 都 经 过 了 优化 ， 可 以 比 直 接 使 用 线程 提供 更 好 的 性 能 。 例 如 ， 
它们 使 用 了 一 个 线程 池 ， 可 对 线程 进行 章 用 ， 避 免 了 为 每 个 任务 部 
创建 线程 。 你 可 以 从 头 开始 实现 这 些 机 制 ， 但 是 这 会 花费 你 大 量 的 
时 间 ， 而 且 这 也 是 一 项 复杂 的 任务 。 

它们 含有 一 些 高 级 特性 ， 可 以 使 API 更 加 强大 。 例 如 ， 有 了 Java 中 
的 执行 器 ， 你 可 以 执行 以 Future 对 象形 式 返回 结果 的 任务 。 同 
样 ， 你 也 可 以 从 头 开始 实现 这 些 机 制 ， 但 是 并 不 建议 这 样 做 。 














。 你 的 应 用 程序 很 容易 从 一 个 操作 系统 被 迁移 到 力 一 个 ， 而 且 它 将 具 
有 更 好 的 伸缩 性 。 

。 你 的 应 用 程序 在 今后 的 Java 版 本 中 可 能 会 更 加 快速 。Java 开 友人 员 
一 直 都 在 改进 内 部 构件 ， 而 且 JVM 优 化 也 会 更 加 适合 于 JDK API. 


总 之 ， 出 于 性 能 和 开发 时 间 方 面 的 原因 ， 在 实现 并 发 算法 之 前 ， 要 分 析 
一 下 线程 API 提 供 的 高 层 机 制 。 


1.6.3 ”考虑 伸缩 性 


在 古 要 实现 一 个 并 发 算法 ， 主 要 目标 之 一 就 是 要 利用 计算 机 的 全 部 资 
源 ， 尤 其 是 要 充分 利用 处 理 需 或 者 核 的 数目 。 但 是 这 个 数目 可 能 会 随时 
间 推 移 而 发 生变 化 。 硬 件 是 不 断 改 进 的 ， 而 且 其 成 本 每 年 都 在 降低 。 


当 你 使 用 数据 分 解 来 设计 并 发 算法 时 ， 不 要 预先 假定 应 用 程序 要 在 多 少 
个 核 或 者 处 理 器 上 执行 。 要 动态 获取 系统 的 有 关 信 息 〈 例 如 ， 在 Java 中 
可 以 使 用 Runtime .getRuntime().availableProcessors() 方 法 来 获 
取信 息 ) ， 并 且 让 你 的 算法 使 用 这 些 信 息 来 计算 它 要 执行 的 任务 数 。 这 
人 











如 果 你 使 用 任务 分 解 来 设计 并 发 算法 ， 情 况 就 会 更 加 复 洒 。 你 要 根据 算 
法 中 独立 任务 的 数目 来 设计 ， 而 且 强 制 执行 较 多 的 任务 将 会 增加 由 同步 
机 制 引 入 的 开销 ， 而 且 应 用 程序 的 整体 性 能 甚至 会 更 糟糕 。 要 详细 分 析 
算法 来 判断 是 否 要 采用 动态 的 任务 数 。 


1.6.4 ”使 用 线程 安全 API 

如 果 你 需要 在 并 发 应 用 程序 中 使 用 某 个 Java 库 ， 首 先 要 陪读 其 文档 以 了 
解 该 库 是 否 为 线程 安全 的 。 如 果 它 是 线程 安全 的 ， 那 么 你 可 以 在 自己 的 
应 用 程序 中 使 用 它 而 不 会 出 现任 何 问题 。 如 果 它 不 是 线程 安全 的 ， 那 么 
你 有 如 下 两 个 选择 。 

”如 用 已 经 下 在 一 个 线程 安全 的 普 代 方案 ， 那 么 于 应 该 使 用 该 普 代 广 


。 如 果 不 存 在 线程 安全 的 蔡 代 方案 ， 就 应 该 添加 必要 的 同步 机 制 来 中 
免 所 有 可 能 出 现 问题 的 情形 ， 尤 其 是 数据 竞争 条 件 。 











例如 ， 如 果 你 在 并 发 应 用 程序 中 需要 用 到 一 个 List， 且 需要 在 多 个 线程 
中 对 其 更 新 ， 那 么 就 不 应 该 使 用 ArrayList 类 ， 因 为 它 不 是 线程 安全 
的 。 在 这 种 情况 下 ， 你 可 以 使 用 一 个 线程 安全 的 类 ， 例 如 
ConcurrentLinkedDeque、CopyOnWriteArrayList 或 

者 LinkedBlockingDeque。 如 果 你 要 用 的 类 不 是 线程 安全 的 ， 你 必须 
首先 查找 一 个 线程 安全 的 蔡 代 方案 。 采 用 并 发 API 很 可 能 比 你 所 能 实现 
的 任何 玲 代 方案 都 更 加 优化 。 


1.6.5” 绝 不 要 假定 执行 顺序 


如 果 你 不 采用 任何 同步 机 制 ， 那 么 在 并 发 应 用 程序 中 任务 的 执行 顺序 是 
不 确定 的 。 任 务 执行 的 顺序 以 及 每 个 任务 执行 的 时 间 ， 是 由 操作 系统 的 
调度 器 所 诀 定 的 。 在 多 次 执行 时 ， 调 度 喜 并 不 关心 执行 顺序 是 个 相 同 。 
下 一 次 执行 时 顺序 可 能 束 不 同 了 。 


假定 茶 一 执行 顺序 的 结果 通常 会 导致 数据 竞争 问题 。 算 法 的 最 终结 果 取 
决 于 任务 执行 的 顺序 。 有 了 时， 结果 可 能 是 正确 的 ， 但 在 其 他 时 候 可 能 是 
错误 的 。 检 测 导 致 数据 苋 争 条 件 的 原因 非常 困难 ， 因 此 你 必须 小 心 谨 
慎 ， 不 要 忘记 所 有 必须 进行 同步 的 元 素 。 


16.6 ”在 静态 和 共享 场合 尽 可 能 使 用 局 部 线程 变量 


线程 局 部 变量 是 一 种 特殊 的 变量 。 每 个 任务 针对 该 变量 都 有 一 个 独立 的 
值 ， 这 样 你 就 不 需要 任何 同步 机 制 来 保护 对 该 变量 的 访问 。 


这 上 听 起 来 有 些 奇怪 。 对 于 该 类 的 各 个 属性 ， 每 个 对 象 都 有 自己 的 一 个 副 
本 ， 那 么 为 什么 我 们 还 需要 线程 局 部 变量 呢 ? 试想 这 样 的 场景 : 你 创建 
了 一 个 Runnable 任 务 ， 而 且 你 也 想 执行 该 任务 的 多 个 实例 。 你 可 以 为 
要 执行 的 每 个 线程 都 创建 一 个 Runnable 对 象 ， 但 另 一 个 可 选 方案 是 创 
建 一 个 Runnab1le 对 象 并 且 使 用 该 对 象 创 建 所 有 线程 。 在 后 一 种 情况 
中 ， 所 有 线程 都 将 访问 该 类 各 属性 的 同一 副本 ， 除 非 你 使 

用 ThreadLocal 类 。ThreadLocal 类 确保 了 每 个 线程 都 将 访问 自己 针对 
该 变量 的 实例 ， 而 不 需要 使 用 Lock 类 、Semaphore 类 或 者 类 似 的 类 。 


另 一 种 场景 是 ， 你 所 使 用 的 Thread 局 部 变量 带 有 静态 属性 。 此 时 ， 关 
的 所 有 实例 都 会 共享 其 静态 属性 ， 除 非 你 使 用 ThreadLocal 类 来 声明 它 
们 。 在 使 用 ThreadLocal 类 声明 的 情况 下 ， 每 个 线程 都 访问 其 自己 的 副 












































本 。 


另 一 个 可 选 方案 是 使 用 ConcurrentHashMap<Thread，MyType> 这 样 的 
方式 ， 像 var.get(Thread.currentThread()) 

或 var.put(Thread.currentThread()，newvalue) 这 样 使 用 它 。 通 
和 常 ， 由 于 可 能 出 现 竞 争 ， 这 种 方式 要 比 采 用 ThreadLocal 的 方式 明显 慢 
一 些 ( 玉 用 ThreadLocal 根 本 就 没有 苋 搜 ) 。 不 过 这 种 方式 也 有 其 优 

点 : 你 可 以 完全 清空 哈 希 表 ， 这 样 对 每 个 线程 来 说 其 中 的 值 都 会 消失 。 
因此 ， 采 用 这 种 方式 有 时 也 是 有 用 的 。 


1.6.7 寻找 更 易于 并 行 处 理 的 算法 版 本 


我 们 将 算法 定义 为 解决 某 一 问题 的 一 系列 步 又。 解决 同一 问题 可 以 有 许 
多 方式 。 有 些 方 式 速度 更 快 ， 有 些 方式 使 用 的 资源 更 少 ， 还 有 一 些 方式 
能 够 更 好 地 适应 输入 数据 的 特定 特征 。 例 如 ， 如 采 你 想 要 对 一 组 数 排 

序 ， 可 以 使 用 已 实现 的 多 种 排序 算法 之 一 来 解决 问题 。 


在 前 一 节 中 ， 我 们 推荐 你 使 用 吝 行 版 算法 作为 实现 并 发 算法 的 起 点 。 这 
种 方式 主要 有 两 个 优点。 


。 很 容易 测试 并 行 算 法 结果 的 正确 性 。 
。 可 以 度量 采用 并 发 处 理 后 获得 的 性 能 提升 。 


但 是 并 非 每 个 算法 都 可 以 并 行 化 处 理 ， 至 少 并 不 那么 容易 。 你 可 能 认为 
最 好 的 起 点 是 解决 待 并 行 处 理 的 问题 的 性 能 最 佳 的 串 行 算法 ， 但 这 是 一 
种 错误 的 假设 。 你 应 该 寻找 更 容易 并 行 化 的 算法 ， 然 后 将 该 并 及 算法 和 
其 性 能 最 佳 的 串 行 版 本 对 比 ， 看 看 哪个 可 以 提供 更 高 的 否 吐 量 。 


1.6.8” 尺 可 能 使 用 不 可 变 对 象 


在 并 发 应 用 程序 中 过 到 的 一 个 主要 问题 就 是 数据 了 竞争 条 件 。 前 文 已 经 提 
到 ， 如 朵 两 个 或 多 个 任务 能 修改 在 茶 个 共 译 变量 中 存放 的 数据 ， 却 没有 
在 临界 段 中 实现 对 该 变量 的 访问 ， 就 会 发 生 数据 竞争 条 件 这 样 的 情况 。 


例如 ， 当 你 使 用 Java 这 样 的 面 癌 对 象 的 语言 时 ， 可 以 将 应 用 程序 作为 一 
个 对 象 集合 来 实现 。 每 个 对 象 都 有 一 些 属性 ， 还 有 一 些 方 法 用 来 读 取 和 
更 改 这 些 属性 的 值 。 如 条 有 些 任 务 共享 了 某 个 对 象 ， 那 么 当 你 调用 茶 个 
没有 同步 机 制 保护 的 方法 来 更 改 该 对 象 某 个 属性 的 值 时 ， 束 很 可 能 会 出 






































现 数据 不 一 致 问题 。 


有 一 些 特殊 的 对 象 叫 作 不 可 变 对 象 ， 其 主要 特征 是 初始 化 之 后 你 不 能 对 
其 任何 属性 进行 修改 。 如 果 你 想 要 修改 某 一 属性 的 值 ， 必 须 创 建 男 一 个 
对 象 。Java 中 的 String 类 是 不 可 变 对 象 的 最 佳 例子 。 当 你 使 用 某 种 看 起 
人 
新 的 对 象 。 


在 并 用 应 用 程序 中 使 用 不 可 变 对 象 有 如 下 两 个 非常 重要 的 好 处 。 


。 不 需要 任何 同步 机 制 来 保护 这 些 类 的 方法 。 如 果 两 个 任务 要 修改 同 
一 对 象 ， 它 们 将 创建 新 的 对 象 ， 因 此 绝 不 会 出 现 两 个 任务 同时 修改 
同一 对 象 的 情况 。 

。 不 会 有 任何 数据 不 一 致 问题 ， 因 为 这 是 第 一 点 的 必然 结果 。 


不 可 变 对 象 存在 一 个 缺 把 。 如 果 你 创建 了 太 多 的 对 象 ， 可 能 会 影响 应 用 
程序 的 吞吐 量 和 内 存 使 用 。 如 果 你 有 一 个 没有 内 部 数据 结构 的 简单 对 

象 ， 将 其 作为 不 可 变 对 象 通常 是 没有 问题 的 。 然 而 ， 构 造 由 其 他 对 象 集 
合 整 合 而 成 的 复杂 不 可 变 对 象 通常 会 村 致 严重 的 性 能 问题 。 


1.6.9 ”通过 对 锁 排 序 来 避免 死 锁 

在 并 发 应 用 程序 中 避免 死 锁 的 最 佳 机 制 之 一 是 强制 要 求 任 务 总 是 以 相同 
顺序 获取 资源 。 实 现 这 种 机 制 的 一 种 简单 方式 是 为 每 个 资源 都 分 配 一 个 
编号 。 当 一 个 任务 需要 多 个 资源 时 ， 它 需要 按照 顺序 来 请 求 。 


例如 ， 你 有 两 个 任务 T1 和 T2， 它 们 都 需要 两 项 资源 R1 和 R2， 你 可 以 强 
制 它 们 首先 请 求 R1 资 源 然后 请 求 R2 资 源 ， 这 样 就 不 会 发 生死 锁 。 

男 一 方面 ， 如 果 T1 首 先 请 求 了 R1 资 源 然后 请 求 R2 资 源 ， 并 且 T2 首 先 请 
求 了 R2 资 源 然 后 请 求 R1 资 源 ， 那 么 就 会 发 生死 锁 。 


这 一 技巧 的 一 种 错误 使 用 如 下 所 示 。 你 有 两 个 任务 都 需要 获得 两 个 Lock 
对 象 ， 它 们 都 试图 以 不 同 顺序 来 获取 锁 。 



































public void operation1() { 
lock1.lock(); 
lock2.lock(); 


} 

public void operation2() { 
lock2.lock(); 
lock1.lock(); 


} 





可 能 operation1() 方 法 执行 了 它 的 第 一 条 语句 ， 而 operation2() 方 法 
也 执行 了 它 的 第 一 条 语句 ， 这 样 它们 都 将 等 待 另 一 个 锁 ， 也 就 发 生 了 和 死 
Fil o 


只 要 按照 同样 的 顺序 获取 锁 ， 就 可 以 避免 这 一 点 。 如 果 按 照 下 述 代 码 更 
改 operation2() 方 法 ， 就 绝 不 会 发 生死 锁 。 


public void operation2() { 
lock1.lock(); 
lock2.lock(); 

} 


1.6.10 EHRT EERE H 


当 你 要 在 两 个 或 者 多 个 任务 之 间 共 至 数据 时 ， 必 须 使 用 同步 机 制 来 保护 
对 该 数据 的 访问 ， 并 且 避 人 免 任何 数据 不 一 致 问题 。 


某 些 情况 下 ， 你 可 以 使 用 volatile 关 键 字 而 不 使 用 同步 机 制 。 如 果 只 
有 一 个 任务 修改 数据 而 其 他 任务 都 读 取 数据 ， 那 么 你 可 以 使 

用 volatile 关 键 字 而 无 须 任 何 同步 机 制 ， 并 且 不 会 出 现 数据 不 一 致 问 
pe oie 你 需要 使 用 锁 、synchronized 关 键 字 或 者 其 他 同步 
Size 


在 Java 5 中 ， 并 发 API 中 有 一 种 新 的 变量 ， 叫 作 原 子 变 量 。 这 些 变量 都 是 
在 单个 变量 上 支持 原子 操作 的 类 。 它 们 含有 一 个 名 

为 compareAndSet(oldValue，newValue) 的 方法 ， 该 方法 具有 一 种 机 
制 ， 可 用 于 探测 某 个 步骤 中 将 新 值 赋 给 变量 的 操作 是 否 完成 。 如 果 变 量 
的 值 等 于 ol1dvalue， 那 么 该 方法 将 变量 的 值 更 改 为 newValue 并 且 返 回 
true。 人 否则 ， 该 方法 返回 false。 以 类 似 方式 工作 的 方法 还 有 很 多 ， 例 
如 getAndIncrement() 和 getAndDecrement() 等 。 这 些 方法 也 都 是 原 
子 的 。 


该 解决 方案 是 免 锁 的 ， 也 就 是 说 不 需要 使 用 锁 或 者 任何 同步 机 制 ， 因 此 























它 的 性 能 比 任 何 采用 同步 机 制 的 解决 方案 要 好 。 
在 Java 中 可 用 的 最 重要 的 原子 变量 有 如 下 几 种 : 








AtomicInteger 
AtomicLong 
AtomicReference 
AtomicBoolean 
LongAdder 
DoubleAdder 


16.11 占有 锁 的 时 间 尺 可 能 短 


和 其 他 所 有 同步 机 制 一 样 ， 锁 允许 你 定义 一 个 临界 段 ， 一 次 只 有 一 个 任 
务 可 以 执行 。 当 一 个 任务 执行 该 临界 段 时 ， 其 他 要 执行 临界 段 的 任务 都 
将 被 阻 竖 并 且 要 等 竺 该 临界 段 被 释放 。 这 样 ， 该 应 用 程序 其 实 是 以 串 行 
方式 来 工作 的 。 


你 要 特别 注意 临界 段 中 的 指令 ， 因 为 如 果 不 了 解 它 的 话 会 降低 应 用 程序 
的 性 能 。 你 必须 将 临界 段 定制 得 尽 可 能 小 ， 而 且 它 必须 仅 包 含 处 理 与 其 
他 任务 共 盏 的 数据 的 指令 ， 这 样 应 用 程序 花费 在 单行 处 理 上 的 时 间 惑 会 


最 少 。 


避免 在 临界 段 中 执行 你 无 法 控制 的 代码 。 例 如 ， 你 写 了 一 个 库 ， 它 接收 
一 个 用 户 自 定义 的 Callable 对 象 作为 参数 ， 但 是 该 对 象 有 时 候 需 要 由 

你 启动 ， 而 你 并 不 知道 该 Call1able 对 象 中 到 底 有 什么 。 也 许 它 会 阻塞 

输入 /输出 、 获 取 某 些 锁 、 调 用 你 库 中 的 其 他 方法 ， 或 者 只 是 需要 处 理 

很 长 一 段 时 间 。 因 此 ， 如 果 可 能 的 话 ， 在 你 的 库 并 不 占有 任何 锁 时 ， 再 
尝试 执行 这 些 代 码 。 如 果 对 你 的 算法 来 说 不 可 能 做 到 这 一 点 ， 就 在 该 库 
的 文档 中 说 明 这 一 情况 ， 并 且 尽 可 能 说 明 对 用 户 提供 的 代码 的 限制 ( 例 
如 ， 这 些 代 码 不 应 该 加 任何 锁 ) 。 一 个 很 好 的 例子 就 

是 ConcurrentHashMap 类 的 compute() 方 法 的 文档 说 明 。 


1.6.12 ”谨慎 使 用 延迟 初始 化 
延迟 初始 化 就 是 将 对 象 的 创建 延迟 到 该 对 象 在 应 用 程序 中 首次 使 用 时 的 


一 种 机 制 。 它 的 主要 优点 是 可 以 使 内 存 使 用 最 小 化 ， 因 为 你 只 需要 创建 
实际 需要 的 对 象 。 但 是 在 并 发 应 用 程序 中 它 也 可 能 引发 问题 。 




















如 果 你 使 用 茶 个 方法 初始 化 茶 一 对 象 ， 并 且 该 方法 同时 被 两 个 不 同 的 任 
务 调用 ， 那 么 你 可 以 初始 化 两 个 不 同 的 对 象 。 但 是 这 可 能 会 带 来 问题 
(例如 对 单 例 模 式 的 类 来 说 )， 因 为 你 只 想 为 这 些 类 创建 一 个 对 象 。 


这 一 问题 已 经 有 了 很 好 的 解决 方案 ， 这 束 是 延迟 加 载 的 单 例 模式 (请 查 
看 维基 百科 中 关于 “initialization-on-demand holder idiom>” 的 解释 ) 。 
1.6.13 ”避免 在 临界 段 中 使 用 阻塞 操作 

阻塞 操作 是 指 阻塞 任务 对 其 进行 调用 ， 直 到 某 一 事件 发 生 后 再 调用 的 操 
作 。 例 如 ， 当 你 从 某 一 文件 读 取 数据 或 者 同 控 制 台 输 出 数据 时 ， 调 用 这 
些 操作 的 任务 必须 等 待 ， 直 到 这 些 操作 完成 为 止 。 

如 果 临 界 段 中 包含 了 这 样 的 操作 ， 应 用 程序 的 性 能 束 会 降低 ， 因 为 需要 
执行 该 临界 段 的 任务 都 无 法 执行 临界 段 了 。 位 于 临界 段 中 的 操作 等 待 某 
个 LO 操作 结束 ， 而 其 他 任务 则 一 直 在 等 待 临 界 段 。 


除非 必要 ， 人 否则 不 要 在 临界 段 中 加 入 阻 竖 操作 。 














17 asa 


并 发 程序 设计 包含 了 在 一 台 计 算 机 上 同时 运行 多 个 任务 或 者 进程 所 必需 
eS 
言 和 同步 。 


本 章 一 开始 介绍 了 并 发 的 基本 概念 。 要 完全 理解 本 书 中 的 例子 ， 你 必须 
知道 并 理解 并 发 、 并 行 和 同步 等 术语 。 然 而 ， 并 发 处 理 也 会 产生 一 些 问 
题 ， 例 如 数据 竞争 条 件 、 死 锁 、 活 锁 等 。 你 还 必须 知道 并 发 应 用 程序 可 
能 存在 的 问题 ， 这 会 帮助 你 识别 和 解决 这 些 问题 。 


我 们 还 介绍 了 Intel 公 司 提出 的 一 个 五 步骤 的 简单 方法 论 ， 它 用 于 将 一 个 
串 行 算法 转换 成 并 发 算法 。 此 外 还 展示 了 采用 Java 语 言 实 现 的 一 些 并 发 
设计 模式 ， 介 绍 了 一 些 在 实现 并 发 应 用 程序 时 可 以 借鉴 的 撤 巧 。 


最 后 简单 介绍 了 Java 并 发 API 的 组 件 。 这 是 一 个 非常 丰富 的 API， 既 有 低 
层 机 制 ， 也 有 很 高 层 的 机 制 ， 让 你 很 容易 实现 强大 的 并 发 应 用 程序 。 


下 一 章 ， 你 将 学 习 如 何 使 用 Java 并 发 应 用 程序 的 基本 要 素 : Thread 类 和 
Runnable 接 口 。 





第 2 和 章 使 用 基本 元 系 : Thread 和 
Runnable 


执行 线程 是 并 发 应 用 程序 的 核心 。 实 现 并 发 应 用 程序 时 ， 无 论 采 用 何 种 
编程 语言 ， 都 必须 创建 不 同 的 执行 线程 ， 并 且 这 些 线 程 以 不 确定 的 顺序 
并 行 运行 ， 除 非 你 使 用 同步 元 素 ， 比 如 信号 量 。 在 Java 中 ， 创 建 执行 线 
程 有 两 种 方法 。 


e 扩展 Thread 类 。 
e 实现 Runnable 接 口 。 


本 章 将 介绍 在 Java 中 使 用 这 些 元 素 实 现 并 发 应 用 程序 的 方法 ， 主 要 内 容 
如 


O 


Java 中 的 线程 : 特征 和 状态 。 
Thread 类 和 Runnable 接 口 。 
第 一 个 例子 : EERE. 
第 二 个 例子 : 文件 搜索 。 


2.1 Java 中 的 线程 


如 今 ， 计 算 机 用 户 《 以 及 移动 终端 和 平板 电脑 用 户 ) 使 用 电脑 工作 时 要 
同时 使 用 不 同 的 应 用 程序 。 阅 读 新 闻 、 在 社交 网 络 上 发 表 文 章 或 听 音 乐 
的 同时 ， 可 以 使 用 文字 处 理 程序 编写 文档。 之 所 以 可 以 同时 做 以 上 所 有 
事情 ， 是 因为 现代 操作 系统 文 持 多 进程 处 理 。 


用 户 可 以 同时 执行 不 同 的 任务 。 此 外 ， 在 应 用 程序 内 部 ， 你 也 可 以 同时 
做 不 同 的 事情 。 例 如 ， 如 果 你 正在 使 用 文字 处 理 程 序 ， 在 为 文本 添加 粗 
体 样 式 的 同时 便 可 保存 文件 。 这 是 因为 用 于 编写 这 些 应 用 程序 的 现代 编 
程 语言 允许 程序 员 在 应 用 程序 中 创建 多 个 执行 线程 。 每 个 执行 线程 执行 
不 同 的 任务 ， 这 样 你 束 可 以 同时 做 不 同 的 事情 。 


Java 使 用 Thread 类 实现 执行 线程 。 你 可 以 使 用 以 下 机 制 在 应 用 程序 中 创 
建 执行 线程 。 


。 扩 展 Thread 类 并 重 载 run() 方 法 ， 
。 实 现 Runnable 接 口 ， 并 将 该 类 的 对 象 传递 给 Thread 对 象 的 构造 函 
数 。 


这 两 种 情况 下 你 都 会 得 到 一 个 Thread 对 象 ， 但 是 相对 于 第 一 种 方式 来 
说 ， 更 推荐 使 用 第 二 种 。 其 主要 优势 如 下 。 


e Runnable 是 一 个 接口 :你 可 以 实现 其 他 接口 并 扩展 其 他 类 。 对 于 
采用 Thread 类 的 方式 ， 你 只 能 扩展 这 一 个 类 。 

。 可 以 通过 线程 来 执行 Runnable 对 象 ， 但 也 可 以 通过 其 他 类 似 执行 
器 的 Java 并 发 对 象 来 执行 。 这 样 可 以 更 灵活 地 更 改 并 发 应 用 程序 。 

e 可 以 通过 不 同 线程 使 用 同一 Runnab1le 对 象 。 


一 旦 有 了 Thread 对 象 ， 就 必须 使 用 start() 方 法 创建 新 的 执行 线程 并 且 
执行 Thread 类 的 run() 方 法 。 如 果 直 接 调用 run() 方 法 ， 那 么 你 将 调用 
常规 Java 方 法 而 不 会 创建 新 的 执行 线程 。 下 面 来 看 看 Java 编 程 语言 中 线 
程 最 重要 的 特征 。 


2.1.1 Java 中 的 线程 : 特征 和 状态 




















关于 Java 的 线程 ， 首 先 要 说 明 的 是 ， 所 有 的 Java 程 序 ， 不 论 并 发 与 否 ， 
都 有 一 个 名 为 主线 程 的 Thread 对 象 。 你 可 能 知道 ，Java SE 程序 通过 
main() 方 法 启动 执行 过 程 。 执 行 该 程序 时 ，Java 虚 拟 机 JVM) 将 创 
建 一 个 新 Thread 并 在 该 线程 中 执行 main() 方 法 。 这 是 非 并 发 应 用 程序 
中 唯一 的 线程 ， 也 是 并 发 应 用 程序 中 的 第 一 个 线程 。 


与 其 他 编程 语言 相同 ，Java 中 的 线程 共 圣 应 用 程序 中 的 所 有 资源 ， 包 括 
内 存 和 打开 的 文件 。 这 是 一 个 强大 的 工具 ， 因 为 它们 可 以 快速 而 简单 地 








共 孚 信息 。 但 是 ， 正 如 第 1 章 所 述 ， 必 须 使 用 足够 的 同步 元 素 避 免 数 据 
TELAT 


Java 中 的 所 有 线程 都 有 一 个 优先 级 ， 这 个 整数 值 介 于 
Thread.MIN_PRIORITY 和 Thread.MAX_PRIORITY 之 间 〈 实 际 上 它们 的 
值 分 别 是 1 和 10) 。 所 有 线程 在 创建 时 其 默认 优先 级 都 

是 Thread.NORM_PRIORITY (实际 上 它 的 值 是 5〉。 可 以 使 

用 setPriority() 方 法 更 改 Thread 对 象 的 优先 级 (如 果 该 操作 不 允许 
执行 ， 它 会 抛 出 SecurityException 异 常 ) 和 getPriority() 方 法 获 
得 Thread 对 象 的 优先 级 。 对 于 Java 虚 拟 机 和 线程 首选 底层 操作 系统 来 
说 ， 这 种 优先 级 是 一 种 提示 ， 而 非 一 种 契约 。 线 程 的 执行 顺序 并 没有 保 
证 。 通 常 ， 较 高 优先 级 的 线程 将 在 较 低 优先 级 的 线程 之 前 执行 ， 但 是 ， 
正如 之 前 所 述 ， 这 一 点 并 不 能 保证 。 


在 Java 中 ， 可 以 创建 两 种 线程 。 


。 守 护 线程 。 
。 非 守护 线程 。 


二 者 之 间 的 区 别 在 于 它们 如 何 影响 程序 的 结束 。 当 有 下 列 情形 之 一 时 ， 
Java 程 序 将 结束 其 执行 过 程 。 


。 程序 执行 Runtime 类 的 exit() 方 法 ， 而 且 用 户 有 权 执 行 该 方法 。 
° peel 的 所 有 非 守护 线程 均 已 结束 执行 ， 无 论 是 否 有 正在 运行 的 
守护 线程 。 


具有 这 些 特征 的 守护 线程 通常 用 在 作为 垃圾 收集 器 或 缓存 管理 器 的 应 用 
程序 中 ， 执 行 辅 助 任务 。 你 可 以 使 用 isDaemon() 方 法 检查 线程 是 否 为 
守护 线程 ， 也 可 以 使 用 setDaemon() 方 法 将 某 个 线程 确立 为 守护 线程 。 
要 注意 ， 必 须 在 线程 使 用 start() 方 法 开始 执行 之 前 调用 此 方法 。 























最 后 ， 不 同情 况 下 线程 的 状态 不 同 。 所 有 可 能 的 状态 都 

在 Thread.States 类 中 定义 。 你 可 以 使 用 getstate() 方 法 获取 Thread 
对 象 的 状态 。 显 然 ， 你 还 可 以 直接 更 改线 程 的 状态 。 线 程 的 可 能 状态 如 
“Be 





NEW: Thread 对 象 已 经 创建 ， 但 是 还 没有 开始 执行 。 

RUNNABLE: Thread 对 象 正在 Java 虚 拟 机 中 运行 。 

BLOCKED: Thread 对 象 正 在 等 竺 锁定。 

WAITING: Thread 对 象 正 在 等 待 另 一 个 线程 的 动作 。 
TIME_WAITING: Thread 对 象 正在 等 待 另 一 个 线程 的 操作 ， 但 是 有 
时 间 限 制 。 

e THREAD: Thread 对 象 已 经 完成 了 执行 。 


在 给 定时 间 内 ， 线 程 只 能 处 于 一 个 状态 。 这 些 状 态 不 能 映射 到 操作 系统 
的 线程 状态 ， 它 们 是 JVM 使 用 的 状态 。 了 解 了 Java 编 程 语言 中 最 重要 的 
线程 特性 之 后 ， 让 我 们 来 看 看 Runnable 接 口 和 Thread 类 最 重要 的 方 
法 。 





2.1.2 ” Thread 类 和 Runnable 接 口 
如 前 文 所 述 ， 你 可 以 使 用 以 下 任 一 机 制 创建 新 的 执行 线程 。 


e 扩展 Thread 类 并 且 重 载 其 run() 方 法 。 
。 实现 Runnable 接 口 ， 并 将 该 对 象 的 实例 传递 给 Thread 对 象 的 构造 
函数 。 


在 好 的 Java 实 践 做 法 中 ， 相 对 于 第 一 种 方法 而 言 ， 更 推荐 使 用 第 二 种 方 
法 ， 这 将 是 我 们 在 本 章 以 及 整 本 书 中 都 将 采用 的 方法 。 


Runnable 接 口 只 定义 了 一 种 方法 : run() 方 法 。 这 是 每 个 线程 的 主 方 
法 。 当 你 执行 start() 方 法 来 启动 一 个 新 线程 时 ， 它 将 调用 run() 方 法 
(Thread 类 的 run( ) 方 法 或 者 在 Thread 类 的 构造 函数 中 以 参数 形式 传 
递 的 Runnable 对 象 )。 


相反 ，Thread 类 有 很 多 不 同 的 方法 。 它 有 一 种 run() 方 法 ， 实 现 线程 时 
必须 重 载 该 方法 ， 扩 展 Thread 类 和 你 必须 调用 的 start() 方 法 创建 新 的 
执行 线程 。 下 面 给 出 Thread 类 的 其 他 常用 方法 。 








。 获取 和 设置 Thread 对 象 信息 的 方法 。 

o getId(): 该 方法 返回 Thread 对 象 的 标识 符 。 该 标识 符 是 在 线 
程 创建 时 分 配 的 一 个 正 整 数 。 在 线程 的 整个 生命 周期 中 是 唯一 
且 无 法 改变 的 。 
getName()/setName(): 这 两 种 方法 允许 你 获取 或 设 
置 Thread 对 象 的 名 称 。 这 个 名 称 是 一 个 String 对 象 ， 也 可 以 
在 Thread 类 的 构造 函数 中 建立 。 
getPriority()/setPriority(): 你 可 以 使 用 这 两 种 方法 来 
获取 或 设置 Thread 对 象 的 优先 级 。 在 本 章 中 ， 上 文 已 经 解释 
了 Java 如 何 管理 线程 的 优先 级 。 
isDaemon()/setDaemon(): 这 两 种 方法 允许 你 获取 或 建立 
Thread 对 象 的 守护 条 件 。 此 前 已 经 解释 过 该 条 件 的 原理 。 
getState(): 该 方法 返回 Thread 对 象 的 状态 。 之 前 已 经 介绍 
过 Thread 对 象 的 所 有 可 能 状态 。 
interrupt()/interrupted()/isInterrupted(): 第 一 种 方法 表 
明 你 正在 请 求 结束 执行 某 个 Thread 对 象 。 另 外 两 种 方法 可 用 于 检 
得 中 断 状 态 。 这 些 方法 的 主要 区 别 在 于 ， 调 用 interrupted() 方 法 
时 将 清除 中 断 标志 的 值 ， 而 isInterrupted() 方 法 不 会 。 调 
用 interrupt() 方 法 不 会 结束 Thread 对 象 的 执行 。Thread 对 象 负 
员 检 查 标 志 的 状态 并 做 出 相应 的 响应 。 

Sleep(): 该 方法 允许 你 将 线程 的 执行 暂停 一 段 时 间 。 它 将 接收 一 
E 该 值 代表 你 想 要 Thread 对 象 暂停 执行 的 毫秒 


join(): 这 个 方法 将 暂停 调用 线程 的 执行 ， 直 到 调用 该 方法 的 线 
程 执 行 结束 为 止 。 可 以 使 用 该 方法 等 待 另 一 个 Thread 对 象 结束 。 
setUncaughtExceptionHandler(): 当 线 程 执行 出 现 未 校 验 异常 
时 ， 该 方法 用 于 建立 未 校 验 异常 的 控制 占 。 

currentThread(): 这 是 Thread 类 的 静态 方法 ， 它 返回 实际 执行 
该 代码 的 Thread 对 象 。 


接 下 来 ， 你 将 学 习 如 何 使 用 这 些 方法 来 实现 如 下 两 个 示例 。 


。 一 个 矩阵 乘法 应 用 程序 。 
。 一 个 在 操作 系统 中 查找 文件 的 应 用 程序 。 


O 〇 


(0) 








O 〇 


O 〇 

















2.2 ”第 一 个 例子 : 窍 阵 乘 法 


和 矩阵 乘法 是 针对 和 矩阵 做 的 基本 运算 之 一 ， 也 是 并 发 和 并 行 编程 诬 程 中 常 
采用 的 经 典 问题 。 如 果 你 有 一 个 m 行 n 列 的 窍 阵 A4， 和 为 一 个 n 行 p 列 的 
甜 阵 B， 那 么 可 以 将 两 个 矩阵 相 乘 得 到 一 个 m 行 p 列 的 矩阵 C。 


本 节 将 实现 两 个 窍 阵 相 乘 的 串 行 版 本 算法 ， 以 及 三 种 不 同 的 并 及 版 本 。 
然后 ， 我 们 将 比较 四 个 解决 方案 ， 看 看 何 时 并 发 处 理会 带 来 更 好 的 性 


ob 
HE o 











2.2.1 公共 类 


为 了 实现 这 个 例子 ， 我 们 用 到 了 一 个 名 为 MatrixGenerator 的 类 。 使 

用 它 随机 生成 将 进行 乘法 操作 的 和 矩阵。 这 个 类 有 一 种 名 为 generate() 

的 方法 ， 它 接收 和 矩阵 中 所 需 的 行 数 和 列 数 作 为 参数 ， 并 基于 这 两 个 维 数 
生成 一 个 带 有 随机 double 值 的 和 矩阵。 该 类 的 源 代 码 如 下 : 


public class MatrixGenerator { 


public static double[][] generate (int rows, int columns) { 
double[][] ret=new double[ rows ][ columns ]; 
Random random=new Random(); 
for (int i=@; i<rows; i++) { 


for (int j=0; j<columns; j++) { 
ret[i][j]=random.nextDouble()*10; 


return ret; 





2.2.2” 串 行 版 本 

我 们 在 SerialMultip1lier 类 中 实现 了 该 算法 的 串 行 版 本 。 该 类 只 有 一 
种 静态 方法 ， 名 为 multiply()。 它 接收 三 个 double 型 矩阵 作为 参数 : 
其 中 两 个 矩阵 是 将 要 相 乘 的 矩阵 ， 男 一 个 矩阵 用 于 存储 结果 。 


我 们 并 不 检查 和 窍 阵 的 维 数 ， 只 保证 其 正确 性 ， 并 使 用 一 个 三 重 藤 套 循环 





计算 结果 矩阵。SerialMultiplier 类 的 源 代码 如 下 : 


public class SerialMultiplier { 


public static void multiply (double[][] matrix1, double[][] matrix2, 
double[][] result) { 
int rows1=matrix1.length; 
int columns1=matrixi[@].length; 


int columns2=matrix2[@].length; 


for (int i=@; i<rows1; i++) { 
for (int j=0; j<columns2; j++) { 
result[i][j]=0; 
for (int k=@; k<columns1; k++) { 
result[i][j]+=matrix1[i][k]*matrix2[k][j]; 





我 们 还 实现 了 一 个 名 为 serialMain 的 主 类 ， 用 于 测试 串 行 版 矩阵 乘法 
算法 。 在 main() 方 法 中 ， 生 成 两 个 2000 行 2000 列 的 随机 和 窍 阵 ， 并 使 
用 serialMultiplier 类 进行 两 个 定 阵 的 乘法 运算 。 算 法 执行 时 间 的 单 
位 是 毫秒 ， 如 下 所 示 : 
public class SerialMain { 
public static void main(String[] args) { 
double matrix1i[][] = MatrixGenerator.generate(2000, 2000); 
double matrix2[][] = MatrixGenerator.generate(2000, 2000); 


double resultSerial[][]= new double[matrix1.length ] 
[matrix2[@].length ]; 


Date start=new Date(); 

SerialMultiplier.multiply(matrix1, matrix2, resultSerial) ; 

Date end=new Date(); 

System.out.printf("Serial: %d%n",end.getTime()-start.getTime()); 





2.2.3 ”并 行 版 本 





我 们 已 经 实现 了 三 种 不 同 的 并 行 算法 ， 基 于 不 同 的 粒度 实现 这 些 例子 。 


。 结 果 算 阵 中 每 个 元 素 对 应 一 个 线程 。 
。 结 果 和 矩阵 中 每 行 对 应 一 个 线程 。 
。 采 用 与 JVM 中 可 用 处 理 器 数 或 核心 数 相同 的 线程 。 


让 我 们 来 看 看 这 三 个 版 本 的 源 代码 。 
01. 第 一 个 并 发 版 本 : 每 个 元 素 一 个 线程 


在 这 个 版 本 中 ， 我 们 将 在 结果 和 矩阵 中 为 每 个 元 素 创 建 一 个 新 的 执行 
线程 。 例 如 ， 将 两 个 2000 行 2000 列 的 和 矩阵 相 乘 ， 得 到 的 矩阵 将 有 4 
000 000 个 元 素 ， 因 此 我 们 将 创建 4 000 000 个 Thread 对 象 。 因 为 如 
果 同 时 启动 所 有 线程 ， 可 能 会 使 系统 超载 ， 所 以 将 以 10 个 线程 一 组 
的 形式 启动 线程 。 


局 动 10 个 线程 后 ， 使 用 join() 方 法 等 竺 它们 完成 ， 而 且 一 旦 完 
成 ， 束 局 动 男 外 10 个 线程 。 我 们 一 直 钵 循 这 个 过 程 ， 直 到 局 动 所 有 
必需 线程 。 选 择 10 作 为 批量 处 理 线 程 数 并 没有 特殊 理由 。 你 也 可 以 
更 改 这 一 数值 ， 并 俘 看 更 改 后 的 数值 对 算法 性 能 的 影响 。 


我 们 将 实现 IndividualMultiplierTask 类 和 
ParallelIndividualMultiplier 

类 。IndividualMultiplierTask 类 将 实现 每 个 Thread。 该 类 实 
现 了 Runnable 接 口 ， 将 使 用 五 个 内 部 属性 : 两 个 要 相 乘 的 矩阵 、 
结果 矩阵 ， 以 及 要 计算 的 元 素 的 行 和 列 。 我 们 将 使 用 该 类 的 构造 函 
数 来 初始 化 所 有 这 些 属性 : 














public class IndividualMultiplierTask implements Runnable { 


private final double[][] result; 
private final double[][] matrix1; 
private final double[][] matrix2; 


private final int row; 
private final int column; 


public IndividualMultiplierTask(double[][] result, double[][] 
matrix1, double[][] matrix2, 
int i, int j) { 
this.result = result; 


this.matrix1 
this .matrix2 
this.row = i; 
this.column = j; 


matrix1; 
matrix2; 





run( ) 方 法 将 计算 由 row 和 column 属 性 决定 的 元 素 值 。 下 面 的 代码 
将 展示 如 何 实现 该 行为 。 





@Override 
public void run() { 
result[row][column] = ð; 
for (int k = ð; k < matrix1[row].length; k++) { 
result[row][column] += matrix1[row][k] * matrix2[k][column]; 





ParallelIndividualMultiplier 类 将 创建 所 有 必要 的 执行 线程 
计算 结果 和 矩阵 。 它 有 一 种 名 为 multiply() 的 方法 ， 接 收 两 个 将 要 
相 乘 的 矩阵 和 第 三 个 用 于 存储 结果 的 矩阵 作为 参数 。 该 类 将 处 理 结 
果 和 矩阵 的 所 有 元 素 ， 并 创建 一 个 单独 的 
IndividualMultiplierTask 类 计算 每 个 元 素 。 如 前 所 述 ， 我 们 按 
照 10 个 一 组 的 方式 启动 线程 。 启 动 10 个 线程 后 ， 可 使 

用 waitForThreads() 辅 助 方法 等 待 这 10 个 线程 最 终 完成 ， 该 方法 
调用 了 join() 方 法 。 下 面 的 代码 块 展示 了 该 类 的 实现 ; 








public class ParallelIndividualMultiplier { 


public static void multiply(double[][] matrix1, double[][] matrix2, 
double[][] result) { 


List<Thread> threads=new ArrayList<>(); 
int rows1=matrix1.length; 
int rows2=matrix2.length; 
for (int i=@; i<rows1; i++) { 
for (int j=0; j<columns2; j++) { 
IndividualMultiplierTask task=new IndividualMultiplierTask 


(result, matrix1, matrix2, i, j); 
Thread thread=new Thread(task) ; 


02. 


thread.start(); 
threads.add(thread) ; 


if (threads.size() % 10 == 6) { 
waitForThreads(threads) ; 


private static void waitForThreads(List<Thread> threads){ 
for (Thread thread: threads) { 
try { 
thread.join(); 
} catch (InterruptedException e) { 
e.printStackTrace(); 
} 
} 


threads.clear(); 


} 





与 其 他 示例 相同 ， 我 们 创建 了 一 个 主 类 用 以 测试 该 示例 。 它 
与 SerialMain 类 非常 相似 ， 但 在 本 例 中 ， 我 们 将 它 称 
为 ParallelIndividualMain 类 。 此 处 不 再 给 出 该 类 的 源 代码 。 


第 二 个 并 发 版 本 : 每 行 一 个 线程 


在 这 一 版 本 中 ， 我 们 将 在 结果 和 矩阵 中 为 每 一 行 创建 一 个 新 的 执行 线 
程 。 例 如 ， 如 果 将 两 个 2000 行 和 2000 列 的 矩阵 相 乘 ， 就 要 创建 4 
000 000 个 线程 。 正 如 前 面 的 示例 中 所 做 的 那样 ， 我 们 将 以 10 个 线 
程 为 一 组 启动 线程 ， 然 后 等 竺 它们 终结 ， 再 启动 新 线程 。 


我 们 将 实现 RowMultiplierTask 类 和 ParallelRowMultiplier 类 
以 实现 该 版 本 。RowMultiplierTask 类 将 实现 每 个 Thread。 它 实 
现 了 Runnable 接 口 ， 并 且 将 使 用 五 个 内 部 属性 : 两 个 要 相 乘 的 盾 
阵 、 结 有 果 和 矩阵 ， 以 及 要 计算 的 结果 矩阵 的 行 。 我 们 将 使 用 该 类 的 构 
造 函 数 来 初始 化 所 有 这 些 属 性 ， 如 下 上 所 示 。 


public class RowMultiplierTask implements Runnable { 





private final double[][] result; 
private final double[][] matrix1; 
private final double[][] matrix2; 


private final int row; 


public RowMultiplierTask(double[][] result, double[][] matrix1, 
double[][] matrix2, int i) { 


this.result = result; 
this.matrix1 
this.matrix2 
this.row = i; 


matrix1; 
matrix2; 





run( ) 方 法 有 两 个 循环 。 第 一 个 循环 将 处 理 竺 计算 结果 矩阵 row 中 
的 所 有 元 素 ， 而 第 二 个 循环 将 计算 每 个 元 系 的 结果 值 。 


@Override 
public void run() { 
for (int j = 0; j < matrix2[@].length; j++) { 
result[row][j] = 9; 
for (int k = @; k < matrixi[row].length; k++) { 
result[row][j] += matrixi[row][k] * matrix2[k][j]; 





ParallelRowMultip1lier 类 将 创建 计算 结果 和 矩阵 所 需 的 所 有 执行 
线程 。 它 有 一 种 名 为 multiply() 的 方法 ， 该 方法 接收 两 个 行 乘 矩 
阵 和 第 三 个 用 于 存储 结果 的 矩阵 作为 参数 。 它 将 处 理 结果 矩阵 的 所 
有 行 ， 并 创建 一 个 RowMultiplierTask 处 理 每 一 行 。 如 前 所 述 ， 
我 们 以 10 个 为 一 组 的 方式 启动 线程 。 启 动 10 个 线程 后 ， 使 

用 waitForThreads() 辅 助 方法 等 待 这 10 个 线程 最 终 完 成 ， 它 将 调 
用 join() 方 法 。 下 面 的 代码 块 展示 了 如 何 实现 这 个 类 : 








public class ParallelRowMultiplier { 


public static void multiply(double[][] matrix1, double[][] 
matrix2, double[][] result) { 


List<Thread> threads = new ArrayList<>(); 


03. 


int rows1 = matrix1.length; 


for (int i = ð; i < rows1; i++) { 
RowMultiplierTask task = new RowMultiplierTask(result, 
matrix1, matrix2, i); 
Thread thread = new Thread(task); 
thread.start(); 
threads.add(thread) ; 


if (threads.size() % 10 == @) { 
waitForThreads(threads) ; 


private static void waitForThreads(List<Thread> threads){ 
for (Thread thread : threads) { 
try { 
thread. join(); 
} catch (InterruptedException e) { 
e.printStackTrace(); 
} 


threads.clear(); 


} 





与 其 他 示例 相同 ， 我 们 创建 了 一 个 主 类 用 以 测试 这 个 例子 。 它 
与 SerialMain 类 非常 相似 ， 但 在 本 例 中 ， 我 们 将 它 称 
为 ParallelRowMain 类 。 此 处 不 再 给 出 该 类 的 源 代码 。 


第 三 个 并 发 版 本 : 线程 的 数量 由 处 理 器 决定 


在 最 后 一 个 版 本 中 ， 只 创建 与 -VM 可 用 核 或 处 理 器 数量 相同 的 线 
程 。 我 们 使 用 Runtime 类 的 availableProcessors() 方 法 计算 这 
一 数值 。 


在 GroupMultiplierTask 类 和 ParallelGroupMultiplier 类 中 实 
现 了 此 版 本 。GroupMultiplierTask 类 实现 了 我 们 将 要 创建 的 线 
程 。 它 实现 了 Runnable 接 口 ， 并 且 使 用 了 五 个 内 部 属性 : 两 个 要 
相 乘 的 和 矩阵、 结果 矩阵， 以 及 该 任务 将 要 计算 的 结果 矩阵 的 初始 行 





和 最 终 行 。 我 们 将 使 用 该 类 的 构造 函数 初始 化 所 有 这 些 属 性 。 下 面 
的 代码 块 展示 了 如 何 实现 类 的 第 一 部 分 : 


public class GroupMultiplierTask implements Runnable { 


private final double[][] result; 
private final double[][] matrix1; 
private final double[][] matrix2; 


private final int startIndex; 
private final int endIndex; 


public GroupMultiplierTask(double[][] result, double[][] 

matrix1, double[][] matrix2, 
int startIndex, int endIndex) { 

this.result = result; 

this.matrix1 = matrix1; 

this.matrix2 = matrix2; 

this.startIndex = startIndex; 

this.endIndex = endIndex; 





run( ) 方 法 将 使 用 三 个 循环 实现 其 计算 。 第 一 个 循环 将 检查 该 任务 
将 要 计算 的 结果 和 矩阵 的 行 ， 第 二 个 循环 将 处 理 每 一 行 的 所 有 元 素 ， 
最 后 一 个 循环 将 计算 每 个 元 系 的 值 。 





@Override 
public void run() { 
for (int i = startIndex; i < endIndex; i++) { 
for (int j = 0; j < matrix2[@].length; j++) { 
result[i][j] = 9; 
for (int k = ð; k < matrixi[i].length; k++) { 


result[i][j] += matrixi[i][k] * matrix2[k][j]; 





ParallelGroupMutip1lier 类 将 创建 线程 计算 结果 窍 阵 。 它 有 一 种 
名 为 multiply() 的 方法 ， 接 收 要 相 乘 的 两 个 矩阵 和 第 三 个 用 于 存 
放 结 果 的 矩阵 作为 参数 。 首 先 ， 通 过 使 用 Runtime 类 的 

availableProcessors() 方 法 获取 可 用 处 理 器 的 数量 。 然 后 ， 计 


算 每 个 任务 必须 处 理 的 行 ， 以 及 创建 并 局 动 这 些 线程 。 最 后 ， 使 
用 join() 方 法 等 竺 线程 结束 。 


public class ParallelGroupMultiplier { 


public static void multiply(double[][] matrix1, double[][] matrix2, 
double[][] result) { 
List<Thread> threads=new ArrayList<>(); 


int rows1=matrix1.length; 


int numThreads=Runtime. getRuntime().availableProcessors(); 
int startIndex, endIndex, step; 

step=rows1 / numThreads; 

startIndex=@; 

endIndex=step; 


for (int i=@; i<numThreads; i++) { 
GroupMultiplierTask task=new GroupMultiplierTask 
(result, matrix1, matrix2, startIndex, endIndex); 
Thread thread=new Thread(task) ; 
thread.start(); 
threads.add(thread) ; 
startIndex=endIndex; 
endIndex= i==numThreads-2?rows1: endIndex+step; 


} 


for (Thread thread: threads) { 
try { 
thread. join(); 
} catch (InterruptedException e) { 
e.printStackTrace(); 





与 其 他 示例 相同 ， 我 们 创建 了 一 个 主 类 测试 这 个 例子 。 它 
与 SerialMain 类 非常 相似 ， 但 在 本 例 中 ， 我 们 将 它 称 
为 ParallelGroupMain 类 。 此 处 不 再 给 出 该 类 的 源 代码 。 


04. 比较 方案 


比较 一 下 本 节 中 实现 的 乘法 器 算法 四 个 版 本 的 解决 方案 〈 包 括 串 行 
版 和 并 发 版 ”。 为 了 测试 该 算法 ， 我 们 已 经 使 用 JMH 框 架 执 行 这 

些 示例 ， 该 框架 可 文 持 在 Java 中 实现 微 基准 测试 。 使 用 基准 测试 框 
架 是 一 种 很 好 的 解决 方案 ， 可 以 直接 使 用 currentTimeMillis() 

或 nanoTime() 等 方法 度量 时 间 。 在 两 种 不 同 架构 中 ， 执 行 这 些 例 
子 各 10 次 。 


。 一 台 计 算 机 配置 有 Intel Core i5-5300i 处 理 器 、Windows 7 操作 
平台 和 16GB 内 存 。 该 处 理 器 有 两 个 核 ， 每 个 核 可 以 执行 两 个 
线程 ， 所 以 将 有 四 个 并 行 线程 。 

。 另 一 台 计 算 机 配置 有 AMD A8-640 处 理 器 、Windows 10 操 作 系 
统 和 8GB 内 存 ， 此 处 理 器 有 四 个 核 。 


我 们 己 用 三 种 不 同 大 小 的 随机 矩阵 测试 了 算法 : 


e 500x500 
e 1000x1000 
e 2000x2000 


TRAE SPRIT EAA R E CM: E) 。 


a 
500 | 1821.729+366.885 447 .920+49.864 











串 行 版 1000 5474.942+164.447 
2000 70 968.563+4056.883 
500 17 152.883+170.408 

按 个 体 处 理 的 并 行 版 |1000 72 858.419+381.258 





的 并 行 版 |1000 3710.613+411.490 
2000 42 655.081+1370.940 
500 |515.74351.106 |133.530+12.271 

按 分 组 处 理 的 并 行 版 | 1000 3862.635+368.427 


2000 | 86 639.811+2834.1 43 353.60341857.568 

















2000 | 774 681.287+17 380.02 316 466.479+5033.577 
500 | 685.465+72.474 229.228+61.497 








由 上 表 可 以 得 出 以 下 结论 。 











© 这 两 种 架构 有 很 大 不 同 ， 但 是 你 必须 考虑 到 两 侣 电脑 处 理 器 、 
操作 系统 、 内 存 和 硬盘 等 的 配置 不 同 。 
。 在 两 种 架构 上 得 到 的 结果 相同 。 按 分 组 处 理 的 并 行 版 和 按 行 处 
人 
EX AE o 


这 个 例子 告诉 我 们 ， 开 发 一 个 并 发 应 用 程序 时 必须 非常 小 心 。 如 宋 
没有 选择 民 好 的 解决 方案 ， 那 么 性 能 表现 会 很 糟糕 。 


针对 500x500 窍 阵 ， 我 们 用 性 能 最 佳 的 并 发 版 本 和 串 行 版 本 求 取 加 
速 比 ， 以 此 来 考查 并 发 处 理 对 算法 性 能 的 改进 情况 。 














| Tuerial 1821.729 i 
SAMD => —_— = — = 43.93 
T concurrent 515.743 

Tserial 447.920 








Stntel = 3.35 


T concurrent E 133.530 ~ 


2.3 第 二 个 例子 : 文件 搜索 


所 有 操作 系统 都 提供 了 一 种 功能 ， 即 在 文件 系统 中 搜索 符合 某 种 条 件 的 
文件 。《〈 例 如 ， 按 照 名 称 或 部 分 名 称 、 修 改 日 期 等 进行 搜索 。) 在 我 们 
的 示例 中 将 实现 一 个 算法 ， 用 于 碍 找 具 有 预定 名 称 的 文件 。 该 算法 将 采 
用 局 动 搜 索 的 初始 路 径 和 要 碍 找 的 文件 作为 输入 。JDK 提 供 了 过 有 历 目录 
树 结构 的 功能 ， 因 此 不 需要 再 次 在 实际 应 用 中 自己 实现 它 。 


23.1 公共 类 

















这 两 个 版 本 的 算法 将 共享 一 个 公共 类 用 以 存储 搜索 结果 。 我 们 将 其 称 
为 Result 类 ， 而 它 有 两 个 属性 : 一 个 名 为 found 的 Boolean 值 ， 用 于 判 
定 是 否 找 到 了 正在 查找 的 文件 ， 一 个 名 为 path 的 String 值 。 如 果 找 到 
了 该 文件 ， 就 将 其 完整 路 径 存 放 在 该 属性 中 。 


这 个 类 的 代码 非常 简单 ， 所 以 此 处 不 再 给 出 源 代码 。 

2.3.2” 串 行 版 本 

这 个 算法 的 串 行 版 本 非常 简单 。 搜 索 初 始 路 径 ， 获 取 文 件 和 目录 内 容 ， 
并 对 其 进行 处 理 。 对 于 文件 来 说 ， 会 将 其 名 称 与 正在 寻找 的 名 称 进行 比 
较 。 如 果 相 同 ， 则 将 其 填 入 Result 对 象 并 完成 算法 执行 。 对 于 各 目录 
来 说 ， 我 们 对 本 操作 进行 递归 调用 ， 以 便 在 这 些 目录 中 搜索 文件 。 


我 们 将 在 SerialFilesearch 类 的 searchFiles() 方 法 中 实现 这 个 操 
作 。SerialFileSearch 类 的 源 代码 如 下 : 














public class SerialFileSearch { 


public static void searchFiles(File file, String fileName, 
Result result) { 


File[] contents; 
contents=file.listFiles(); 


if ((contents==null) || (contents.length==@)) { 
return; 


} 


for (File content : contents) { 
if (content.isDirectory()) { 
searchFiles(content,fileName, result); 
} else { 
if (content.getName().equals(fileName)) { 
result.setPath(content.getAbsolutePath()); 
result.setFound(true) ; 
System.out.printf("Serial Search: Path: %s%n", 
result.getPath()); 
return; 


} 
if (result.isFound()) { 
return; 





2.3.33 ”并 发 版 本 
并 行 化 该 算法 有 多 种 方法 〈 如 下 所 示 ) 。 


。 你 可 以 为 我 们 要 处 理 的 每 个 目录 创建 一 个 执行 线程 。 

。 你 可 以 将 目录 树 分 组 ， 并 为 每 个 组 创建 执行 线程 。 你 创建 的 组 数 将 
决定 应 用 程序 使 用 的 执行 线程 数 。 

。 你 可 以 使 用 与 JVM 的 可 用 核 数 相同 的 线程 数 。 


在 这 种 情况 下 ， 我 们 必须 考虑 到 算法 将 集中 使 用 LO 操作 。 因 为 一 次 只 
ern ee ee ee ree 
I 性 能 。 


我 们 将 按照 最 后 一 种 供 选 方案 实现 并 发 版 本 。 将 在 一 

个 ConcurrentLinkedQueue (一 个 可 以 在 并 发 应 用 程序 中 使 用 的 队 
列 Queue 接 口 实现 ) 中 存储 初始 路 径 所 包含 的 目录 ， 并 创建 与 JVM 可 用 
处 理 器 数量 相同 的 线程 。 每 个 线程 将 从 队列 中 获取 一 条 路 径 ， 并 处 理 该 
目录 及 其 所 有 子 目 录 和 其 中 的 文件 。 线 程 处 理 完 毕 该 目录 中 的 所 有 文件 
和 目录 时 ， 将 从 队列 中 提取 另 一 个 目录 。 


如 果 其 中 一 个 线程 找到 了 正在 碍 找 的 文件 ， 该 线程 会 立即 终止 执行 。 在 





这 种 情况 下 ， 我 们 使 用 interrupt() 方 法 结束 其 他 线程 的 执行 。 


我 们 在 ParallelGroupFileTask 类 和 ParallelGroupFileSearch 类 中 
实现 了 该 版 本 的 算法 。ParallelGroupFileTask 类 实现 了 所 有 将 用 于 
查找 文件 的 线程 。 它 实现 了 Runnable 接 口 并 且 使 用 了 四 个 内 部 属性 : 
一 个 名 为 fileName 的 String 属 性 ， 用 于 存储 竺 查找 文件 的 名 称 ; 一 个 
名 为 directories 的 File 对 象 的 ConcurrentLinkedQueue， 用 于 存放 
将 要 处 理 的 目录 列表 ; 一 个 名 为 parallelResult 的 Result 对 象 ， 用 于 
存储 搜索 结果 ; 一 个 名 为 found 的 Boolean 属 性 ， 用 于 标记 是 否 发 现 了 
正在 寻找 的 文件 。 我 们 将 使 用 该 类 的 构造 函数 初始 化 所 有 属性 : 








public class ParallelGroupFileTask implements Runnable { 


private final String fileName; 

private final ConcurrentLinkedQueue<File> directories; 
private final Result parallelResult; 

private boolean found; 


public ParallelGroupFileTask(String fileName, Result parallelResult, 
ConcurrentLinkedQueue<File>directories) { 
this.fileName = fileName; 
this.parallelResult = parallelResult; 
this.directories = directories; 
this.found = false; 








run( ) 方 法 有 一 个 循环 ， 在 队列 中 有 元 素 并 且 没 有 找到 该 文件 时 会 被 执 
行 。 它 使 用 ConcurrentLinkedQueue 类 的 po11() 方 法 处 理 下 一 个 目 
录 ， 并 调用 辅助 方法 processDirectory()。 如 果 找 到 了 这 个 文件 
Cfound 属 性 为 true) ， 那 么 使 用 return 语 句 结束 线程 。 





@Override 
public void run() { 
while (directories.size() > 0) { 
File file = directories.poll(); 
try { 
processDirectory(file, fileName, parallelResult) ; 
if (found) { 
System.out.printf("%s has found the file%n", 
Thread.currentThread().getName() ); 
System.out.printf("Parallel Search: Path: %s%n", 
parallelResult.getPath()); 
return; 


} catch (InterruptedException e) { 
System.out.printf("%s has been interrupted%n", 
Thread. currentThread().getName()); 





如 果 找 到 了 作为 参数 的 文件 ，processDirectory(1) 方 法 将 接收 存放 待 
处 理 目录 的 File 对 象 、 正 在 查找 的 文件 名 和 存放 结果 的 Result 对 象 。 
它 使 用 listFiles() 方 法 获取 File 对 象 的 内 容 。1istFiles() 方 法 可 
返回 File 对 象 数组 并 对 其 进行 处 理 。 对 于 目录 来 说 ， 这 将 建立 一 个 新 对 
象 对 该 方法 进行 递归 调用 。 对 于 文件 来 说 ， 该 方法 将 调用 辅助 的 
processFile() 方 法 : 


private void processDirectory(File file, String fileName, 
Result parallelResult) throws 
InterruptedException { 
File[] contents; 
contents = file.listFiles(); 


if ((contents == null) || (contents.length == @)) { 
return; 


} 


for (File content : contents) { 
if (content.isDirectory()) { 
processDirectory(content, fileName, parallelResult) ; 
if (Thread.currentThread().isInterrupted()) { 
throw new InterruptedException() ; 


} 
if (found) { 
return; 


} 
} else { 
processFile(content, fileName, parallelResult); 
if (Thread.currentThread().isInterrupted()) { 
throw new InterruptedException(); 


} 
if (found) { 
return; 











在 处 理 完 每 个 目录 和 文件 之 后 ， 还 要 检查 线程 是 否 被 中 断 。 我 们 使 

用 Thread 类 的 currentThread() 方 法 获取 执行 该 任务 的 Thread 对 象 ， 
然后 使 用 isInterrupted() 方 法 来 验证 线程 是 否 被 中 断 。 如 果 线 程 被 
中 断 ， 我 们 将 抛 出 一 个 新 的 InterruptedExeption 寞 常 ， 在 run() 方 法 
a 以 结束 线程 的 执行 。 这 种 机 制 使 我 们 能 够 在 找到 文件 后 完 


我 们 还 要 检查 found 属 性 是 否 为 true。 如 果 为 true， 我 们 将 立即 返回 以 
完成 线程 的 执行 。 


如 果 找 到 了 作为 参数 的 文件 ，processFile() 方 法 接收 存储 待 处 理 文件 
的 File 对 象 、 待 查找 文件 的 名 称 、 存 放 操 作 结 果 的 Result 对 象 。 我 们 
将 当前 处 理 File 的 名 称 与 正在 查找 的 文件 名 称 进行 比较 。 如 果 两 个 名 称 
相同 ， 那 么 填 入 Result 对 象 并 日 将 found 属 性 设置 为 true， 如 下 所 
ZN: 





private void processFile(File content, String fileName, 
Result parallelResult) { 
if (content.getName().equals(fileName)) { 
parallelResult.setPath(content.getAbsolutePath()); 
this.found = true; 


} 


} 


public boolean getFound() { 
return found; 


} 





ParallelGroupFilesearch 类 使 用 辅助 任务 实现 了 整个 算法 。 它 将 实 
现 静 态 的 searchFiles() 方 法 ， 接 收 一 个 指向 搜索 基本 路 径 的 File 对 
象 、 一 个 存储 当前 查找 文件 名 称 的 fileName 的 String、 存 放 操 作 结 果 
的 Result 对 象 作 为 参数 。 


首先 ， 创 建 ConcurrentLinkedQueue 对 象 ， 并 且 将 基本 路 径 所 包含 的 
所 有 目录 存放 在 其 中 ， 如 下 所 示 : 





public class ParallelGroupFileSearch { 


public static void searchFiles(File file, String fileName, 
Result parallelResult) { 


ConcurrentLinkedQueue<File> directories = new 


ConcurrentLinkedQueue<>(); 
File[] contents = file.listFiles(); 


for (File content : contents) { 
if (content.isDirectory()) { 
directories.add(content) ; 
} 
} 





然后 ， 我 们 使 用 Runtime 类 的 availableProcessors() 方 法 获得 JVM 
可 用 线程 的 数量 ， 创 建 一 个 ParallelFileGroupTask 对 象 ， 并 且 为 每 
个 处 理 右 创建 一 个 Thread。 


int numThreads = Runtime.getRuntime().availableProcessors(); 

Thread[] threads = new Thread[numThreads ]; 

ParallelGroupFileTask[] tasks = new ParallelGroupFileTask 
[numThreads ] ; 


for (int i = @; i < numThreads; i++) { 
tasks[i] new ParallelGroupFileTask(fileName, parallelResult, 
directories); 
threads[i] = new Thread(tasks[i]); 
threads[i].start(); 
} 











最 后 ， 等 待 某 个 线程 找到 文件 或 者 所 有 线程 都 完成 执行 为 止 。 对 于 第 一 

种 情况 ， 使 用 interrupt() 方 法 和 前 面 提 到 的 机 制 取 消 其 他 线程 的 执 

使 用 Thread 类 的 getSstate() 方 法 检查 各 个 线程 是 否 已 完成 执行 ， 
0 下 所 示 : 





boolean finish = false; 
int numFinished = @; 


while (!finish) { 
numFinished = ð; 
for (int i = ð; i < threads.length; i++) { 
if (threads[i].getState() == State.TERMINATED) { 
numF inished++; 
if (tasks[i].getFound()) { 
finish = true; 
} 
} 


} 
if (numFinished == threads.length) { 
finish = true; 
} 
} 
if (numFinished != threads.length) { 
for (Thread thread : threads) { 
thread.interrupt(); 





2.3.4 对 比 解决 方案 


比较 一 下 本 节 中 实现 的 乘法 器 算法 四 个 版 本 的 解决 方案 ( 串 行 版 和 并 发 
版 )。 为 了 测试 该 算法 ， 我 们 使 用 JMH 框 架 执 行 这 些 示例 ， 该 框架 可 

文 持 用 Java 语 言 实现 微 基准 测试 。 使 用 基准 测试 框架 是 一 种 很 好 的 解决 
方案 ， 它 可 以 直接 使 用 currentTimeMillis() 或 nanoTime() 等 方法 来 
计算 时 间 。 我 们 在 两 种 不 同 架构 中 执行 这 些 例 子 各 10 次 。 


。 一 台 计 算 机 配置 有 Intel Core i5-5300i4h F248. Windows 7 操作 系统 
和 16GB 内 存 。 该 处 理 器 有 两 个 核 ， 每 个 核 可 以 执行 两 个 线程 ， 所 
以 将 有 四 个 并 行 线程 。 

e 另 一 台 计 算 机 配置 有 AMD A8-640 处 理 器 、Windows 10 操 作 系 统 和 
8GB 内 存 。 该 处 理 器 有 四 个 核 。 


在 Windows 目 录 下 用 两 个 不 同 的 文件 名 测试 算法 : 





e hosts 
® yyy-yyy 


我 们 已 经 在 Windows 操 作 系 统 上 测试 了 算法 。 第 一 个 文件 存在 而 第 二 个 
文件 不 存在 。 如 果 你 使 用 了 其 他 操作 系统 ， 要 相应 地 更 改 文件 的 名 称 。 
以 下 表格 给 出 了 以 台 秒 为 单位 的 平均 执行 时 间 及 其 标准 偏差。 


5869.019+124.548 2955.535+69.252 
FB AT 








yyy.yyy 26 474.179+785.680 14 508.276+195.725 
2792.313+100.885 1972.248+193.386 





yyy.yyy 21 337.2884954.344 12 742.856+361.681 


我 们 可 以 得 出 以 下 结论 。 


。 这 两 种 架构 的 性 能 有 所 区 别 ， 但 是 你 必须 考虑 到 它们 的 处 理 占 、 操 
作 系 统 、 内 存 和 硬盘 不 同 。 

。 在 两 种 架构 上 得 到 的 结 条 相同 。 并 行 算法 的 性 能 优 于 串 行 算法 。 对 
hosts 文 件 的 搜索 来 说 ， 这 种 性 能 差异 要 比 查 找 不 存在 的 文件 更 大 。 


我 们 可 以 用 搜索 hosts 文 件 性 能 最 好 的 并 发 版 本 和 串 行 版 本 求 取 加 速 比 ， 
以 此 来 观察 采用 并 发 处 理 如 何 提高 算法 的 性 能 。 











T serial 5869.019 
Samp = 二 一 ”= 一 一 一 一 2.10 

了 concurrent 2 í 92.313 

Leria 2955.535 








Si 一 一 — -一 5 
“Intel a FE cath . 
T concurrent 1972.248 


2.4 25 


本 章 介 绍 了 在 Java 中 创建 执行 线程 的 最 基本 元 系 : Runnable 接 口 和 
Thread 类 。 在 Java 中 ， 创 建 线程 的 方式 有 两 种 。 


。 扩展 Thread 类 并 且 重 载 run() 方 法 。 
。 实现 Runnable 接 口 ， 并 且 将 该 类 的 对 象 传递 给 Thread 类 的 构造 函 
数 。 


第 二 种 机 制 比 第 一 种 更 受 欢 迎 ， 因 为 它 带 来 了 更 大 的 灵活 性 。 


我 们 还 了 解 了 Thread 类 中 有 许多 不 同 的 方法 。 用 这 些 方法 可 以 获取 线 
程 信 息 ， 更 改线 程 的 优先 级 ， 或 者 等 待 线程 结束 。 我 们 在 两 个 例子 中 使 
用 了 所 有 这 些 方法 ， 其 中 一 个 例子 是 矩阵 乘法 ， 另 一 个 例子 是 在 目录 中 
搜索 文件 。 在 这 两 种 情况 下 ， 并 发 处 理 呈 现 的 性 能 更 好 ， 但 是 我 们 也 明 
自 了 ， 实 现 算 法 的 并 发 碑 本 时 必须 小 心 。 寿 使 用 并 有 处理 的 方式 不 合 
适 ， 那 么 性 能 也 会 糟糕 。 


下 一 章 将 介绍 执行 器 框架 ， 在 该 框 名 下 创建 并 发 应 用 程序 时 不 必 担 心 线 
程 的 创建 和 管理 。 





第 3 章 管理 大 量 线程 : PUT ae 


实现 简单 的 并 发 应 用 程序 时 ， 要 为 每 个 并 发 任务 创建 一 个 线程 并 执行 。 
这 种 方式 会 引发 一 些 重要 问题 。 从 Java 5 开始 ，Java 并 发 API 便 引入 了 执 
行 喜 框架 ， 用 以 改善 那些 执行 大 量 并 发 任务 的 并 发 应 用 程序 的 性 能 。 本 
章 将 介绍 以 下 内 容 。 

© FT as lal Jt o 

。 第 一 个 例子 : 太 最 近邻 算法 。 

。 第 二 个 例子 : 客户 端 /服务 器 环境 下 的 并 发 处 理 。 


3.1 执行 名 简介 
第 2 章 已 经 介绍 过 ，Java 实 现 并 发 应 用 程序 的 基本 机 制 如 下 。 


。 实现 了 Runnable 接 口 的 类 : 这 是 要 以 并 发 方式 实现 的 代码 。 
。 Thread 类 的 一 个 实例 : 这 是 将 以 并 发 方式 执行 该 代码 的 线程 。 


这 种 方式 可 以 创建 并 管理 Thread 对 象 ， 并 且 实 现 线程 间 的 同步 机 制 。 
然而 ， 这 也 会 带 来 一 些 问 题 ， 尤 其 对 那些 具有 大 量 并 发 任务 的 应 用 程序 
来 说 更 是 如 此 。 如 果 线 程 太 多 ， 就 会 降低 应 用 程序 性 能 ， 甚 至 会 使 整个 
系统 中 断 运行 。 

Java 5 引入 了 执行 侣 框架 解决 这 些 问题 ， 并 且 提 供 了 一 个 高 效 的 解决 方 
采 ， 相 对 于 传统 并 发 机 制 而 言 ， 该 解决 方案 更 便于 编程 人 员 使 用 。 


在 本 章 中 ， 我 们 将 通过 实现 如 下 两 个 使 用 执行 器 框架 的 例子 ， 介 绍 该 杠 
架 的 基本 特征 。 


。 扩 最 近邻 算法 ， 这 是 一 种 用 于 分 类 的 基本 机 器 学 习 算法 。 它 基于 训 
练 数据 集中 K 个 与 测试 沧 例 标 答 最 相似 的 范例 确定 测试 范例 的 标 
客户 端 /服务 器 环境 下 的 并 发 处 理 ; 当前， 能 够 将 信息 提供 给 成 二 


上 万 个 客户 端的 应 用 程序 非常 重要 ， 采 用 最 佳 方式 实现 系统 的 服务 
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第 4 章 和 第 5 章 将 介绍 执行 器 的 更 多 高 级 特性 。 
3.1.1 执行 器 的 基本 特征 
执行 器 的 主要 特征 如 下 。 
© 不 需要 创建 任何 Thread 对 象 。 如 果 要 执行 一 个 并 发 任务 ， 只 需要 
创建 一 个 执行 该 任务 〈 例 如 一 个 实现 Runnab1le 接 口 的 类 ) 的 实例 
并 且 将 其 发 送 给 执行 器 。 执 行 器 会 管理 执行 该 任务 的 线程 。 


。 执行 器 通过 重新 使 用 线程 来 缩减 线程 创建 融 来 的 开销 。 在 内 部 ， 执 
行 右 定理 着 一 个 线程 他 ， 其 中 的 线程 称 为 工作 线程 (worker- 


























thread) 。 如 宁 问 执行 器 发 送 任务 而 且 存在 东 一 空 亲 的 工作 线程 ， 
那么 执行 器 就 会 使 用 该 线程 执行 任务 。 

。 使 用 执行 器 控制 资源 很 容易 。 可 以 限制 执行 器 工作 线程 的 最 大 数 
目 。 如 果 发 送 的 任务 数 多 于 工作 线程 数 ， 那 么 执行 器 就 会 将 任务 存 
入 一 个 队列 。 当 工作 线程 完成 某 个 任务 的 执行 后 ， 将 从 队列 中 调 取 
另 一 个 任务 继续 执行 。 

。 你 必须 以 显 式 方式 结束 执行 融 的 执行 ， 必 须 告 诉 执 行 器 完成 执行 之 
后 终止 所 创建 的 线程 。 如 在 不 然 ， 执 行 器 则 不 会 结束 执行 ， 这 样 应 
用 程序 也 不 会 结束 。 


执行 器 还 有 一 些 更 有 用 的 特征 ， 使 其 更 加 强大 、 有 灵活 。 
3.1.2 执行 器 框架 的 基本 组 件 


执行 器 框架 中 含有 各 种 接口 和 类 ， 它 们 可 实现 执行 器 提供 的 全 部 功能 。 
该 框架 的 基本 组 件 如 下 。 


e Executor 接 口 : 这 是 Executor 框 架 的 基本 接口 。 它 仅 定义 了 一 个 
方法 ， 即 允许 编程 人 员 回 执行 器 发 送 一 个 Runnab1le 对 象 。 
ExecutorService 接 口 : 该 接口 扩展 了 Executor 接 口 并 且 包 括 更 
多 方法 ， 增 加 了 该 框架 的 功能 ， 例 如 以 下 所 述 。 

o 执行 可 返回 结果 的 任务 : Runnable 接 口 提供 的 run() 方 法 并 不 

会 返回 结果 ， 但 是 借用 执行 器 ， 任 务 可 以 返回 结果 。 

o 通过 单个 方法 调用 执行 一 个 任务 列表 。 

结束 执行 器 的 执行 并 且 等 待 其 终止 。 

e ThreadPoolExecutor%: 该 类 实现 了 Executor 接 口 和 
ExecutorService 接 口 。 此 外 ， 它 还 包含 一 些 其 他 获取 执行 器 状 
态 〈 工 作 线 程 的 数量 、 已 执行 任务 的 数量 等 ) 的 方法 、 确 定 执行 器 
参数 〈 工 作 线程 的 最 小 和 最 大 数目 、 空 闲 线程 等 竺 新 任务 的 时 间 
等 ) 的 方法 ， 以 及 支持 编程 人 员 扩 展 和 调整 其 功能 的 方法 。 

e Executors#: 该 类 为 创建 Executor 对 象 和 其 他 相关 类 提供 了 实 
用 方法 。 














3.2 第 一 个 例子 : k- 最 近邻 算法 


k- 最 邻近 算法 是 一 种 用 于 监督 分 类 的 简单 机 器 学 习 算 法 。 该 算法 的 主要 
组 成 部 分 如 下 所 示 。 


训练 数据 集 : 该 数据 集 由 实例 构成 ， 其 中 包括 定义 每 个 实例 的 一 个 
或 者 多 个 属性 ， 以 及 一 个 可 确定 实例 标签 的 特殊 属性 。 

。 距离 指标 : 该 指标 用 于 确定 训练 数据 集 的 实例 与 你 想 要 分 类 的 新 实 
例 之 间 的 距离 〈 或 者 说 相似 度 ) 。 

WATER: 该 数据 集 用 于 上 度量 算法 的 行为 。 


对 茶 个 实例 进行 分 类 时 ， 该 算法 计算 该 实例 和 训练 数据 集 所 有 实例 的 距 
离 。 然 后 ， 选 取 k 个 距离 最 邻近 的 实例 并 且 人 查看 这 些 实例 的 标签 。 实 例 
最 多 的 标签 将 被 指派 为 输入 实例 的 标签 。 


在 本 章 中 ， 我 们 将 采用 UCI 机 堪 学 习 资 源 库 (UCI Machine Learning 
Repository) 的 Bank Marketing 数 据 集 。 为 了 度量 实例 之 间 的 距离 ， 我 
们 将 采用 欧 氏 距离 (Euclidean distance) 。 该 指标 要 求实 例 的 所 有 属性 
必须 有 数值 。Bank Marketing 数 据 集 的 一 些 属 性 是 “类 别 型 的 ”， 也 就 是 
说 ， 这 些 属性 可 以 从 一 些 预 定义 值 中 取 值 ， 这 样 就 不 能 直接 对 该 数据 集 
使 用 欧 氏 距离 。 可 以 为 每 个 类 别 型 的 值 指 派 一 个 序号 。 例 如 ， 对 于 婚姻 
状况 来 说 ， 可 用 0 代表 单身 ，1 代 表 已 婚 ，2 代 表 离 婚 。 然 而 ， 这 可 能 意 
味 着 离婚 的 人 与 已 婚 的 人 之 间 的 距离 要 比 其 与 单身 的 人 之 间 的 距离 更 
近 ， 而 这 一 点 也 值得 隘 榨 。 如 果 使 所 有 的 类 别 型 取 值 的 距离 相同 ， 还 要 
为 此 单独 创建 属性 ， 例 如 已 婚 、 单 喘 和 离婚 ， 而 每 个 属性 都 只 有 两 个 
值 0 CE) 和 1 CHE) 。 


数据 集 有 66 个 属性 和 两 个 可 能 的 标签 : 是 和 人 个。 我们 还 将 数据 划分 成 如 
下 两 个 子 集 。 


。 训练 数据 集 : 有 39 129 个 实例 。 
。 测试 数据 集 : 有 2059 个 实例 。 


正如 第 1 章 中 所 述 ， 我 们 首先 实现 了 该 算法 的 串 行 版 本 。 然 后 ， 寻 找 该 
算法 中 可 以 进行 并 行 处 理 的 部 分 ， 之 后 采用 执行 占 框 架 执 行 并 发 任务 。 
在 下 面 几 节 中 ， 我 们 将 谢 析 及 最 近邻 算法 的 串 行 版 本 和 两 个 不 同 的 并 发 























版 本 ， 其 中 第 一 个 并 发 版 本 具有 非常 细 的 粒度 ， 而 第 二 个 并 发 版 本 则 具 
有 较 粗 的 粒度 。 


3.2.1 Kk- 最 近邻 算法 : 串 行 版 本 


我 们 在 KnnClassifier 类 中 实现 六 最 近邻 算法 的 串 行 版 本 。 该 类 内 存储 
了 训练 数据 集 和 数值 K〈 用 于 确定 某 个 实例 标签 的 范例 数量 ) 。 





public class KnnClassifier { 


private final List <? extends Sample>dataSet; 
private int k; 


public KnnClassifier(List <? extends Sample>dataSet, int k) { 
this.dataSet=dataSet; 
this.k=k; 

} 





KnnClassifier 类 仅 实 现 了 一 个 名 为 classify 的 方法 ， 该 方法 接收 一 
个 Sample 对 象 作 为 参数 ， 而 该 对 象 中 合 竺 分 类 的 实例 ，c1lassify 方 法 
返回 一 个 字符 串 ， 其 中 含有 要 指派 给 该 实例 的 标签 。 


public String classify (Sample example) { 


该 方法 包括 三 个 主要 的 部 分 。 首 先 ， 计 算 范 例 和 训练 集 所 有 范例 之 间 的 
距离 。 











Distance[] distances=new Distance[dataSet.size()]; 
int index=@; 


for (Sample localExample : dataSet) { 
distances[index]=new Distance(); 


distances[index].setIndex(index) ; 
distances[index].setDistance(EuclideanDistanceCalculator 
.calculate(localExample, example) ); 


index++; 


} 


其 次 ， 使 用 Arrays.sort() 方 法 按照 距离 从 低 到 高 的 顺序 排列 范例 。 


Arrays.sort(distances) ; 








最 后 ， 我 们 在 k 个 最 邻近 的 范例 中 统计 实例 最 多 的 标签 。 


Map<String, Integer> results = new HashMap<>(); 

for (int i = ð; i < k; i++) { 
Sample localExample = dataSet.get(distances[i].getIndex()); 
String tag = localExample.getTag(); 


results.merge(tag, 1, (a, b) ->atb); 


return Collections.max(results.entrySet(), 
Map.Entry.comparingByValue()).getKey(); 
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离 。 该 类 的 代码 如 下 : 


public class EuclideanDistanceCalculator { 
public static double calculate (Sample example1, Sample example2) { 
double ret=0.0d; 


double[] datal=example1.getExample(); 
double[] data2=example2.getExample(); 


if (data1.length!=data2.length) { 
throw new IllegalArgumentException ("Vector doesn't have 
the same length"); 
} 


for (int i=@; i<datal.length; i++) { 
ret+=Math.pow(datal[i]-data2[i], 2); 

} 

return Math.sqrt(ret); 





我 们 还 可 以 用 Distance 类 存放 Sample 输 入 和 训练 数据 集中 某 一 实例 之 
间 的 距离 。 : 训练 集 范 例 的 索引 和 和 它 到 输入 范例 的 距 
离 。 此 外 ， 该 类 还 采用 Arrays.sort() 方 法 实现 了 Comparable 接 

口 。 eae 中 存放 了 一 个 实例 。 它 只 有 一 个 双 精 度 型 数组 和 一 个 售 
有 该 实例 标签 的 字符 串 。 


3.2.2 kk- 最 近邻 算法 : 细 粒 度 并 发 版 本 





如 琳 你 分 析 一 下 kK- 最 近邻 算法 的 串 行 版 本 ， 束 会 发 现在 如 下 两 处 可 以 进 
行 算法 的 并 行 处 理 。 


。 距离 的 计算 : 在 每 次 循环 迭代 中 都 会 计算 输入 范例 和 训练 集 某 个 苑 
例 之 则 的 距离 ， 而 每 次 迭代 均 独 立 于 其 他 各 次 迭代 。 

。 距离 的 排序 Java 8 在 Array 类 中 引入 了 parallelSort() 方 法 ， 可 
以 使 用 并 行 方 式 对 数组 进行 排序 。 


在 算法 的 第 一 个 并 行 版 本 中 ， 我 们 为 竺 计算 范例 间 的 每 个 距离 创建 一 个 
任务 ， 也 使 距离 数组 的 并 发 排序 成 为 可 能 。 我 们 在 一 个 名 

为 KnnClassifierParrallelIndividual 的 类 中 实现 了 这 一 版 本 的 算 
法 。 该 类 中 存放 了 训练 数据 集 、 参 数 k、 执 行 并 行 任务 的 
ThreadPoolExecutor 对 象 、 一 个 用 于 存放 执行 器 中 工作 线程 数 的 属 
性 ， 以 及 一 个 用 于 指定 是 否 要 进行 并 行 排 序 的 属性 。 


我 们 将 创建 一 个 线程 数 固定 的 执行 器 ， 这 样 就 可 以 控制 该 执行 器 将 要 使 
用 的 系统 资源 。 这 个 数值 可 通过 系统 中 可 用 处 理 器 的 数目 (用 Runtime 
类 的 availableProcessors() 方 法 获得 ) 乘 以 构造 郴 数 中 参数 factor 
的 值得 到 。factor 的 值 就 是 你 从 处 理 器 获得 的 线程 数 。 我 们 总 是 使 用 

数值 1， 不 过 你 也 可 以 测试 一 下 其 他 值 并 且 对 比 结果 。 下 面 是 分 类 算法 
的 构造 函数 : 














public class KnnClassifierParallelIndividual { 


private final List<? extends Sample>dataSet; 
private final int k; 

private final ThreadPoolExecutor executor; 
private final int numThreads; 

private final boolean parallelSort; 


public KnnClassifierParallelIndividual(List<? extends Sample>dataSet, 


int k, int factor, 
booleanparallelSort) { 
this.dataSet=dataSet; 
this.k=k; 
numThreads=factor* (Runtime.getRuntime().availableProcessors()); 
executor=(ThreadPoolExecutor)Executors 
.newFixedThreadPool(numThreads) ; 
this.parallelSort=parallelSort; 





要 创建 执行 器 ， 我 们 要 使 用 Executors 工 具 类 及 

其 newFixedThreadPoo1() 方 法 。 该 方法 接收 的 是 你 打算 在 执行 器 中 使 
用 的 工作 线程 数 。 执 行 器 的 工作 线程 数 绝 不 会 超过 你 在 该 构造 函数 中 指 
定 的 数目 。 该 方法 返回 一 个 ExecutorService 对 象 ， 但 是 我 们 将 其 强 
制 类 型 转换 为 一 个 ThreadPoolExecutor 对 象 ， 以 便 访 问 那 些 

在 ThreadPoolExecutor 类 中 提供 但 是 在 ExecutorService 接 口中 没有 
提供 的 方法 。 


该 类 还 实现 了 classify() 方 法 ， 它 接收 一 个 范例 作为 参数 并 且 返 回 一 
个 字符 串 。 


首先 ， 为 每 个 需要 计算 的 距离 创建 一 个 任务 ， 并 且 将 其 发 送 给 执行 器 。 
然后 ， 主 线程 等 竺 这些 任务 执行 结束 。 为 了 控制 该 完成 过 程 ， 我 们 使 用 
了 Java 并 发 API 提 供 的 一 种 同步 机 制 : CountDownLatch 类 。 该 类 允许 一 
个 线程 一 直 等 待 ， 直 到 其 他 线程 到 达 其 代码 的 某 一 确定 点 。 该 类 需要 使 
用 等 待 线程 数 进行 初始 化 ， 它 实现 了 以 下 两 种 方法 。 

e getDown(): 该 方法 用 于 减少 要 等 待 的 线程 数 。 

。 await(): 该 方法 挂 起 调用 它 的 线程 ， 直 到 计数 器 达到 0 为 止 。 


在 本 例 中 ， 我 们 使 用 将 在 执行 器 中 执行 的 任务 数 初始 
化 CountDownLatch 类 。 主 线程 为 其 调用 await() 方 法 ， 而 每 个 任务 完 
成 其 计算 时 调用 getDown( ) 方 法 : 














public String classify (Sample example) throws Exception { 


Distance[] distances=new Distance[dataSet.size() ]; 
CountDownLatchendController=new CountDownLatch(dataSet.size()); 


int index=@; 


for (Sample localExample : dataSet) { 
IndividualDistanceTask task=new IndividualDistanceTask(distances, 
index, localExample, example, endController) ; 
executor.execute(task); 
index++; 





endController.await(); 


然后 ， 根 据 parallelSort 属 性 的 值 ， 调 用 Arrays.sort() 方 法 或 
者 Arrays.parallelSort() 方 法 。 


if (parallelSort) { 
Arrays.parallelsort(distances ) ; 
} else { 


Arrays.sort(distances) ; 





最 后 ， 计 算 指派 给 输入 范例 的 标签 。 这 一 部 分 代码 与 串 行 版 本 相同 。 


KnnClassifierParallelIndividual 类 还 包含 一 个 用 于 关闭 执行 器 的 
方法 ， 访 方法 调用 了 shutdown() 方 法 。 如 果 你 不 调用 该 方法 ， 应 用 程 
序 束 不 会 结束 ， 因 为 执行 器 所 创建 的 线程 仍然 存在 ， 并 且 在 等 待 处 理 新 
任务 。 在 此 之 前 提交 的 任务 已 执行 完毕 ， 而 新 提交 的 任务 会 被 拒绝 。 该 
方法 并 不 会 等 待 执行 器 完成 ， 它 会 立即 返回 ， 如 下 所 示 。 





public void destroy() { 
executor. shutdown(); 


} 


本 例 的 关键 环节 就 是 IndividualDistanceTask 类 。 该 类 将 输入 范例 与 
训练 数据 集中 某 个 范例 之 间 的 距离 作为 一 项 并 发 任务 计算 。 它 存放 了 一 
个 完整 的 距离 数组 (我 们 将 只 确立 其 中 一 个 位 置 的 值 )、 训 练 数据 集中 
范例 的 索引 、 这 两 个 范例 和 用 于 控制 任务 结束 的 CountDownLatch 对 
象 。IndividualDistanceTask 类 实现 了 Runnable 接 口 ， 因 此 可 以 在 
执行 器 中 执行 。 该 类 的 构造 函数 如 下 : 


public class IndividualDistanceTask implements Runnable { 


private final Distance[] distances; 
private final int index; 

private final Sample localExample; 

private final Sample example; 

private final CountDownLatchendController; 


public IndividualDistanceTask(Distance[] distances, int index, Sample 
localExample,Sample example, 
CountDownLatchendController) { 


this.distances=distances; 

this. index=index; 
this.localExample=localExample; 
this .example=example; 
this.endController=endController; 





run() 方 法 采用 前 面 提 到 的 EuclideanDistanceCalculator 类 计算 了 
两 个 范例 之 间 的 距离 ， 并 且 将 结果 存放 在 distances 数 组 的 对 应 位 置 中 : 





@Override 

public void run() { 
distances[index] = new Distance(); 
distances[index].setIndex(index) ; 


distances[index].setDistance(EuclideanDistanceCalculator 
.calculate(localExample, example) ); 


endController.countDown() ; 


} 








O ”请 注意 ， 尽 管 所 有 任务 共享 distances 数 组 ， 但 是 我 们 并 不 需要 
采用 任何 同步 机 制 ， 因 为 每 个 任务 只 会 修改 该 数组 的 不 同位 置 。 


3.2.3 kk- 最 近邻 算法 : 粗 粒 度 并 发 版 本 


上 一 节 中 给 出 的 并 发 解决 方案 可 能 存在 一 定 问 题 : 执行 的 任务 太 多 了 。 
想 想 看 ， 在 这 个 例子 中 ， 我 们 有 29 000 多 个 训练 范例 ， 对 于 每 个 待 分 类 
范例 需要 启动 29 000 个 任务 。 男 一 方面 ， 我 们 已 经 创建 的 执行 器 最 大 工 
作 线 程 数 为 numThreads。 因 此 ， 另 一 个 解决 方案 是 仅 启 动 numThreads 
个 任务 ， 并 且 将 训练 数据 集 划 分 为 numThreads 个 组 。 比 如 ， 使 用 一 个 
四 核 处 理 器 执行 这 个 例子 ， 这 样 每 个 任务 将 要 计算 输入 范例 与 大 约 7000 
个 训练 范例 之 间 的 距离 。 








我 们 已 在 KnnClassifierParallelGroup 类 中 实现 了 该 解决 方案 。 它 
与 KnnClassifierParallelIndividual 类 非常 相似 ， 但 是 存在 两 个 主 
要 区 别 。 首 先是 classify() 方 法 的 初始 化 部 分 。 现 在 ， 我 们 只 

有 numThreads 个 任务 ， 而 且 必 须 将 训练 数据 集 划 分 为 numThreads 个 子 
集 。 





public String classify(Sample example) throws Exception { 


Distance distances[] = new Distance[dataSet.size()]; 
CountDownLatchendController = new CountDownLatch(numThreads) ; 


int length = dataSet.size() / numThreads; 
intstartIndex = @, endIndex = length; 


for (int i = @; i <numThreads; i++) { 
GroupDistanceTask task = new GroupDistanceTask(distances, startIndex, 


endIndex, dataSet, example, endController) ; 
startIndex = endIndex; 
if (i <numThreads - 2) { 
endIndex = endIndex + length; 
} else { 
endIndex = dataSet.size(); 


} 


executor.execute(task); 


endController.await(); 








计算 每 个 任务 的 样本 数量 并 存放 在 变量 length 中 。 然 后 ， 为 每 个 线程 指 
派 竺 处 理 样 本 的 开始 索引 和 结束 索引 。 除 最 后 一 个 线程 外 ， 均 时 使 用 
length 值 加 上 开始 索引 计算 结束 索引 。 对 于 最 后 一 个 线程 而 言 ， 最 后 的 
索引 值 即 为 数据 集 的 大 小 。 


其 次 ， 该 类 使 用 GroupDistanceTask 代 替 了 
IndividualDistanceTask。 这 两 个 类 之 间 的 主要 区 别 在 于 前 一 个 类 处 
理 的 是 训练 数据 集 的 一 个 子 集 ， 因 此 它 存 放 的 是 整个 训练 数据 集 及 其 要 
处 理 的 这 部 分 数据 集 的 起 始 位 置 和 终止 位 置 。 

















public class GroupDistanceTask implements Runnable { 
private final Distance[] distances; 
private final intstartIndex, endIndex; 
private final Example example; 
private final List<? extends Example>dataSet; 
private final CountDownLatchendController; 


public GroupDistanceTask(Distance[] distances, intstartIndex, 

intendIndex, List<? extends Example>dataSet, 
Example example, CountDownLatchendController) 

this.distances = distances; 

this.startIndex = startIndex; 

this.endIndex = endIndex; 

this.example example; 

this.dataSet dataSet; 

this.endController = endController; 





run( ) 方 法 处 理 的 是 一 个 范例 集合 ， 而 不 仅仅 是 一 个 范例 。 


public void run() { 


for (int index = startIndex; index <endIndex; index++) { 
Sample localExample=dataSet. get (index) ; 
distances[index] = new Distance(); 
distances[index].setIndex(index) ; 
distances[index].setDistance(EuclideanDistanceCalculator 
.calculate(localExample, example)); 


endController.countDown() ; 


} 





3.2.4 对 比 解 决 方案 
比 一 下 已 经 实现 的 六 最 近邻 算法 的 不 同 版 本 。 我 们 有 如 下 五 个 不 同 版 





A 47 AAS o 

采用 串 行 排序 的 细 粒 度 并 发 版 本 。 
采用 并 发 排序 的 细 粒 度 并 发 版 本 。 
采用 串 行 排序 的 粗 粒 度 并 发 版 本 。 
采用 并 发 排序 的 粗 粒 度 并 发 版 本 。 


为 了 测试 该 算法 ， 从 Bank Marketing 数 据 集中 选取 了 2059 个 测试 实例 。 
分 别 在 k 取 值 为 10、30 和 50 的 情况 下 采用 上 述 五 个 版 本 的 算法 对 上 述 所 
有 实例 进行 分 类 ， 并 且 度 量 各 个 版 本 的 执行 时 间 。 我 们 采用 JMH 框 架 执 
行 上 述 各 例 ， 该 框架 支持 用 Java 实 现 微 型 基准 测试 。 使 用 一 个 面 回 基准 
测试 的 框架 是 一 种 比较 好 的 解决 方案 ， 使 用 其 中 的 
currentTimeMillis() 方 法 或 者 nanoTime( ) 方 法 束 可 以 测量 时 间 。 我 
们 在 两 套 架构 上 分 别 将 其 执行 10 次 。 


。 一 台 计 算 机 配置 了 Intel Core i5-5300 CPU、Windows 7 操作 系统 和 
16GB 的 RAM。 该 处 理 器 有 两 个 核 ， 每 个 核 可 以 执行 两 个 线程 ， 这 
样 我 们 就 有 了 四 个 并 行 线程 。 

。 另 一 台 计 算 机 配置 了 AMD A8-640 CPU. Windows 10 操 作 系 统 和 
8GB 的 RAM。 该 处 理 器 有 四 个 核 。 


执行 时 间 如 下 所 示 (单位: 秒 ) 。 


算法 











uj amw f ma 








我 们 可 以 得 出 以 下 结论 。 


。 参数 值 K (10、30 和 50) 的 选择 对 算法 的 执行 时 间 并 无 影响 。 对 于 
这 三 个 取 值 来 说 ， 五 个 版 本 在 两 套 架 构 上 都 表现 出 相似 的 结果 。 

。 正如 我 们 所 期 望 的 那样 ， 使 用 Arrays .parallelSort() 方 法 进行 
ee eee 
显著 提升 。 

© 各 并 发 版 本 都 提升 了 应 用 程序 的 性 能 ， 但 是 采用 串 行 或 并 行 排序 的 
粗 粒 度 版 本 其 性 能 实现 了 较 大 提升 。 


因此 ， 如 果 与 串 行 版 本 比较 求 取 加 速 比 ， 那 么 该 算法 的 最 好 版 本 古 采 用 
并 行 排序 的 粗 粒度 解决 方案 。 





Tserial 99.218 
S=— = —— =136 
T concurrent 93.299 


这 个 例子 说 明 ， 选 择 一 个 恨 好 的 并 发 解决 方案 可 以 带 来 巨大 的 性 能 提 
升 ， 反 之 则 相反 。 





3.3 ”第 二 个 例子 : 客户 端 /服务 堪 环 境 下 的 并 发 处 
H 


客户 端 /服务 器 模型 是 一 种 软件 架构 ， 基 于 这 种 模型 的 应 用 程序 被 划分 
为 两 个 部 分 : 提供 资源 (数据 、 操 作 、 打 印 机 、 存 储 等 的 服务 占 端 和 
使 用 服务 器 问 所 提供 的 资源 的 客户 疾 。 传 统 上 ， 这 种 架构 用 于 企业 领 
域 ， 但 是 随 着 互联 网 的 于 勃发 展 ， 至 今 它 仍然 是 一 个 很 现实 的 主题 。 你 
也 可 以 将 Web 应 用 程序 视 为 客户 端 /服务 占 应 用 程序 ， 其 服务 器 部 分 束 是 
在 Web 服 务 器 中 执行 的 应 用 程序 后 台 部 分 ， 而 Web 浏 览 器 则 执行 应 用 程 
序 客户 端 部 分 。SOA (service-oriented architecture， 面 向 服务 的 架构 ) 
是 客户 端 /服务 器 架构 的 另 一 个 例子 ， 其 中 公开 的 Web 服 务 即 为 其 服务 器 
部 分 ， 而 使 用 这 些 服务 的 各 种 客户 端 则 是 客户 端 部 分 。 


在 客户 并 /服务 器 环境 中 ， 我 们 通 第 都 有 一 台 服 务 器 和 很 多 使 用 该 服务 
璐 所 提供 服务 的 客户 器， 因此 设计 这 样 的 系统 时 ， 服 务 器 的 性 能 方面 非 


常 重要 。 


在 本 节 ， 我 们 将 实现 一 个 简单 的 客户 端 /服务 絮 应 用 程序 。 它 将 对 某 银 
行 发 布 的 发 展 指数 进行 数据 搜索 。 


该 服务 器 主要 有 以 下 特点 。 


。 和 插 户 端 与 服务 局 都 使 用 套 接 字 连 接 。 
。 TT 而 服务 如 将 用 为 一 个 字符 串 返 回 


© 服务 器 可 以 啊 应 三 种 不 同 查 询 。 

o Query: 这 种 查询 的 格式 
是 q;codCountry;codIndicator;year， 其 中 codCountry 是 
国家 代码 ，codIndicator 是 指数 代码 ， 而 year 是 一 个 可 选 参 
数 ， 表 示 你 想 要 得 询 的 年 份 。 服 务 器 的 响应 信息 将 以 单个 字符 
串 的 形式 返回 。 
Report: 这 种 查询 的 格式 是 r;codIndicator， 其 中 
codIndicator 是 你 要 制 表 的 指数 代码 。 服 务 器 将 以 单个 字符 
串 形 式 啊 应 各 年 份 所 有 国家 该 指数 的 平均 值 。 














(0) 


。 在 其 他 情况 下 ， 服 务 器 将 返回 一 个 错误 消息 。 
与 前 面 的 例子 相同 ， 下 文 将 展示 如 何 实现 该 客户 端 /服务 器 应 用 程序 的 
串 行 版 本 。 然 后 ， 将 展示 如 何 使 用 执行 器 实现 其 并 发 版 本 。 最 后 ， 我 们 
将 比较 这 两 种 解决 方案 ， 以 审视 在 这 种 情况 下 使 用 并 发 处 理 的 优点 。 
3.3.1 客户 端 /服务 器 : 串 行 版 
服务 器 应 用 程序 的 串 行 版 本 主要 有 三 个 部 件 。 

e DAO (data access object， 数 据 访 问 对 象 ) 部 件 ， 负 责 访 问 数据 并 

且 获 取 碍 询 结果 。 

。 命令 部 件 ， 由 各 种 查询 的 命令 组 成 。 

。 服务 嚣 部件， 接收 查询 ， 调 用 对 应 命令 ， 并 且 问 客户 端 返回 结果 。 
下 面 仔细 了 解 一 下 上 述 部 件 。 
01. DAO 部 件 


正如 我 们 前 面 提 到 的 ， 服 务 器 将 针对 发 展 指数 进行 数据 搜索 。 该 数 
据 以 CSV 文 件 存 放 。 该 应 用 程序 中 的 DAO 组 件 将 整个 文件 加 载 到 内 
存 的 一 个 List 对 象 中 。 它 为 涉及 的 每 个 查询 痢 实现 一 个 方法 ， 而 这 
些 方 法 通过 搜索 该 列表 查找 数据 。 


在 此 我 们 不 介绍 这 个 类 的 代码 ， 因 为 很 容易 实现 ， 而 且 它 也 不 是 本 
书 所 要 讲述 的 重点 内 容 。 


02. 人 

















命令 部 件 是 DAO 部 件 和 服务 器 部 件 之 间 的 中 介 。 我 们 实现 了 一 个 基 
本 抽象 类 Command， 它 是 所 有 命令 的 基 类 。 





public abstract class Command { 


protected final String[] command; 


public Command (String [] command) { 
this .command=command; 


} 


public abstract String execute () 








然后 ， 我 们 为 每 一 个 查询 实现 了 一 条 命令 。 碍 询 在 QueryCommand 
类 中 实现 ， 其 execute() 方 法 如 下 所 示 : 


public String execute() { 
WDIDAOdao=WDIDAO. getDAO( ) ; 


if (command.length==3) { 
return dao.query(command[1], command[2]); 
} else if (command. length==4) { 
try { 
return dao.query(command[1], command[2], 
Short.parseShort(command[3])); 
} catch (Exception e) { 
return "ERROR;Bad Command"; 
} 
} else { 
return "ERROR;Bad Command"; 
} 





} 


Report ÆJ ÆReportCommand PKI, Fkexecute() IAU FT 
ZN: 


@Override 
public String execute() { 


WDIDAOdao=WDIDAO. getDAO() ; 
return dao.report(command[1]); 


} 





Stop 查 询 在 stopCommand 类 中 实现 ， 其 execute( ) 方 法 如 下 所 示 : 


@Override 
public String execute() { 


return "Server stopped"; 


} 





最 后 ， 出 错 的 情况 通过 ErrorCommand 类 处 理 ， 其 execute( 1) 方法 
如 下 所 示 : 


@Override 
public String execute() { 


return "Unknown command: "+command[@]; 


} 


03. 服务 器 部 件 


最 后 ， 服 务 器 部 件 在 Serialserver 类 中 实现 。 首 先 ， 它 通过 调 
es ) 方 法 初始 化 DAO。 其 主要 目的 是 使 用 DAO 加 载 所 有 数 
jie 





public class SerialServer { 


public static void main(String[] args) throws IOException { 
WDIDAOdao = WDIDAO.getDAO(); 
booleanstopServer = false; 
System.out.println( "Initialization completed."); 


try (ServerSocketserverSocket = new ServerSocket(Constants 
.SERIAL_PORT)) { 





此 后 ， 我 们 需要 执行 一 个 循环 ， 直 到 该 服务 器 接收 到 一 个 Stop 查 询 
为 止 。 该 循环 执行 以 下 四 步 。 


接收 来 自 客 户 端的 查询 。 
解析 并 分 的 要 素 。 
调用 对 应 a 全 

问 客 户 端 nen 


IX VU SARA SEENON FIRS A BO as: 








do { 
try (Socket clientSocket = serverSocket.accept() ; 
PrintWriter out = new PrintWriter(clientSocket.getOutputStream(), 
true); 

BufferedReader in = new BufferedReader(new InputStreamReader 
(clientSocket.getInputStream()));) { 

String line = in.readLine(); 

Command command; 


String[] commandData = line.split(";"); 
System.out.println("Command: ”+ commandData[@]); 


switch (commandData[@]) { 
case "q": 
System.out.println("Query") ; 
command = new QueryCommand(commandData) ; 
break; 
case "r": 
System.out.println("Report") ; 
command = new ReportCommand(commandData) ; 
break; 
case "z": 
System.out.println("Stop") ; 
command = new StopCommand(commandData) ; 
stopServer = true; 
break; 
default: 
System.out.println("Error") ; 
command = new ErrorCommand(commandData) ; 
} 
String response = command.execute(); 
System.out.println(response) ; 
} catch (IOException e) { 
e.printStackTrace(); 


} while (!stopServer); 





3.3.2 ”客户 端 /服务 器 : 并 行 版 本 


在 单行 版 本 中 ， 服 务 器 部 件 存在 一 个 非常 严重 的 缺陷 。 当 处 理 一 个 碍 询 
ES SPAS BE HEEL Ht ExT © CL AR Mi Jr ES EW VR ENE Tid M HE BEAK 
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我 们 可 以 使 用 并 发 处 理 获 得 更 好 的 性 能 。 如 有 果 服 务 器 收 到 请 求 后 创建 了 
一 个 线程 ， 它 可 以 将 该 查询 的 所 有 处 理 委 托 该 线程 ， 并 开始 处 理 新 的 请 
求 。 这 种 方法 也 存在 一 些 问题 。 如 采 我 们 接收 到 了 大 量 碍 询 ， 则 会 导致 
系统 因 创 建 太 多 线程 而 不 堪 重 人 负 。 但 是 如 果 我 们 使 用 线程 数 固定 的 执行 
器 ， 就 可 以 控制 服务 器 所 使 用 的 资源 ， 并 获得 比 串 行 版 本 更 好 的 性 能 。 


为 了 使 用 执行 器 将 串 行 版 服务 器 部 件 转换 为 并 有 版， 必须 修改 服务 器 
端 。DAO 部 件 是 相同 的 ， 虽 然 我 们 也 已 经 更 改 了 实现 命令 部 件 的 类 名 ， 
但 是 实现 过 程 几 乎 相同 。 只 有 Stop 碍 询 发 生 了 改变 ， 因 为 现在 它 有 了 更 
多 职能 。 下 面 我 们 了 解 一 下 并 有 版 服务 器 部 件 的 实现 细 布 。 

















01. 服务 器 部 件 


并 发 服务 器 部 件 在 ConcurrentServer 部 件 中 实现 。 我 们 为 其 加 入 
了 两 项 串 行 服务 器 不 具备 的 要 素 : 在 ParallelCache 类 中 实现 的 组 
存 系统 和 在 Logger 类 中 实现 的 日 志 系 统 。 首 先 ， 并 发 服务 器 调 

用 getDAO( ) 方 法 初始 化 DAO 部 分 。 主 要 目标 是 DAO 加 载 所 有 数据 
并 且 使 用 Executors 类 的 newFixedThreadPool() 方 法 创建 一 

个 ThreadPoo1lExecutor 对 象 。 访 方法 接收 的 是 我 们 要 在 服务 器 中 
使 用 的 最 大 工作 线程 数 。 执 行 器 绝 不 会 超过 该 工作 线程 数 。 要 获得 
工作 线程 数 ， 我 们 要 使 用 Runtime 类 的 availableProcessors() 
方法 获取 系统 的 核 数 。 


public class ConcurrentServer { 


private static ThreadPoolExecutor executor; 

private static ParallelCache cache; 

private static ServerSocketserverSocket; 

private static volatileboolean stopped=false; 

public static void main(String[] args) { 
serverSocket=nul1; 


WDIDAOdao=WDIDAO. getDAO(); 

executor=(ThreadPoolExecutor) Executors.newFixedThreadPool 
(Runtime. getRuntime().availableProcessors()); 

cache=new ParallelCache(); 

Logger.initializeLog(); 


System.out.println("Initialization completed."); 





布尔 变量 stopped 被 声明 为 volatile 型 ， 因 为 另 一 个 线程 可 以 更 
改 它 。 当 stopped 变 量 被 男 一 个 线程 设置 为 true 时 ，volatile 关 
键 字 确 保 了 这 一 改变 在 主 方法 中 可 见 。 如 果 没 有 volatile 关 键 
字 ， 由 于 CPU 缓存 或 者 编译 优化 方面 的 原因 ， 这 样 的 改变 则 不 可 
见 。 然 后 ， 我 们 初始 化 serverSocket 以 监听 请 求 : 


serverSocket = new ServerSocket(Constants.CONCURRENT PORT); 


我 们 不 能 使 用 一 个 try-with-resources 语 句 管理 服务 器 socket。 
当 我 们 收 到 Stop 命 令 后 需要 关闭 服务 器 ， 但 是 服务 器 正在 等 待 
serverSocket 对 象 的 accept() 方 法 。 为 了 迫使 服务 器 丢弃 该 方 
法 ， 需 要 显 式 关闭 服务 器 〈 我 们 将 在 shutdown() 方 法 中 执行 这 一 





操作 ) ， 因 此 不 能 使 用 try-with-resources 语 句 关闭 socket。 


此 后 ， 我 们 会 执行 一 个 循环 ， 直 到 服务 器 接收 到 一 个 Stop 查 询 为 
止 。 该 循环 执行 如 下 三 个 步 又 。 

。 从 客户 端 接 收 一 个 查询 。 

。 创建 一 个 任务 处 理 该 查询 。 

© 将 该 任务 及 送 给 执行 器 。 


下 面 的 代码 片段 展示 了 这 三 个 步 又: 


do { 
try { 
Socket clientSocket = serverSocket.accept(); 
RequestTask task = new RequestTask(clientSocket) ; 


executor. execute(task); 
} catch (IOException e) { 
e.printStackTrace(); 


} 
} while (!stopped); 


最 后 ， 一 旦 服务 器 完成 了 执行 〈 离 开 了 该 循环 ) ， 则 必须 使 

用 awaitTermination() 方 法 结束 该 执行 器 。 访 执行 器 完 

成 execution() 方 法 前 ， 该 方法 将 一 直 阻 赛 主线 程 。 然 后 ， 关 闭 绥 
存 系统 ， 等 待 一 条 表明 服务 器 执行 完毕 的 消息 ， 如 下 所 示 : 











executor.awaitTermination(1, TimeUnit.DAYS) ; 
System.out.println( "Shutting down cache"); 
cache. shutdown(); 

System.out.println( "Cache ok"); 





System.out.println("Main server thread ended"); 


a 


我 们 已 经 额外 加 入 了 两 种 方法 : 一 种 是 getExecutor() 方 法 ， 它 返 
回 了 用 于 执行 并 发 任务 的 ThreadPoolExecutor 对 象 ， 另 一 种 
是 shutdown() 方 法 ， 它 用 于 按照 顺序 结束 服务 器 的 执行 器 ， 该 方 
法 调用 了 执行 器 的 shutdown() 方 法 并 且 关 闭 ServerSocket。 








public static void shutdown() { 
stopped = true; 
System.out.println("Shutting down the server..."); 


System.out.println("Shutting down executor"); 
executor. shutdown(); 
System.out.println( "Executor ok"); 
System.out.println("Closing socket"); 
try { 
serverSocket.close(); 
System.out.println("Socket ok"); 
} catch (IOException e) { 
e.printStackTrace(); 
} 
System.out.println("Shutting down logger"); 
Logger.sendMessage("Shutting down the logger"); 
Logger. shutdown() ; 
System.out.println( "Logger ok"); 





在 并 发 服务 器 中 有 一 个 关键 部 件 ， 处 理 每 个 客户 端 请 求 的 
RequestTask 类 。 该 类 实现 了 Runnable 接 口 ， 这 样 它 就 可 以 以 并 
a 3 a 
Socket 参 数 。 


public class RequestTask implements Runnable { 


private final Socket clientSocket; 


public RequestTask(Socket clientSocket) { 
this.clientSocket = clientSocket; 


} 
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调用 相应 的 命令 。 

向 客户 端 返回 结果 。 


其 代码 片段 如 下 所 示 : 











public void run() { 


try (PrintWriter out = new PrintWriter(clientSocket 
.getOutputStream(), true); 


BufferedReader in = new BufferedReader(new InputStreamReader 
(clientSocket.getInputStream()));) { 
String line = in.readLine(); 
Logger.sendMessage(line) ; 
ParallelCache cache = ConcurrentServer.getCache(); 
String ret = cache.get(line) ; 


if (ret == null) { 
Command command; 
String[] commandData = line.split(";"); 
System.out.println("Command: " + commandData[@]); 
switch (commandData[@]) { 
case "q": 
System.err.println("Query"); 
command = new ConcurrentQueryCommand(commandData) ; 
break; 
case "r": 
System.err.println("Report") ; 
command = new ConcurrentReportCommand(commandData) ; 
break; 
case "Ss": 
System.err.println("Status") ; 
command = new ConcurrentStatusCommand(commandData) ; 
break; 
case "z": 
System.err.printlin("Stop"); 
command = new ConcurrentStopCommand(commandData) ; 
break; 
default: 
System.err.println("Error") ; 
command = new ConcurrentErrorCommand(commandData) ; 
break; 
} 
ret = command.execute(); 
if (command.isCacheable()) { 
cache.put(line, ret); 
} 
} else { 
Logger.sendMessage("Command "+line+" was found in the cache"); 


System.out.printin(ret) ; 
} catch (Exception e) { 
e.printStackTrace(); 
} finally { 
try { 
clientSocket.close(); 
} catch (IOException e) { 


e.printStackTrace(); 





正如 前 面 的 代码 片段 所 示 ， 我 们 重 命 名 了 命令 部 件 中 的 所 有 类 。 除 
了 ConcurrentStopCommand 类 之 外 ， 其 他 实现 过 程 都 相同 。 现 
在 ， 命 令 部 件 调用 ConcurrentSserver 类 的 shutdown( ) 方 法 按照 
顺序 结束 服务 器 的 执行 。execute( ) 方 法 的 源 代码 如 下 : 


@Override 
public String execute() { 


ConcurrentServer. shutdown(); 
return "Server stopped"; 


} 





同样 ， 现 在 Command 类 包含 了 一 个 新 的 Boolean 型 的 
isCacheable() 方 法 ， 如 果 绥 存 中 存放 了 命令 的 结果 ， 则 该 方法 返 
回 true， 人 否则 返回 false。 


3.3.3 ”额外 的 并 发 服务 器 组 件 

我 们 已 经 实现 了 一 些 额外 的 并 发 服务 器 组 件 : 返回 服务 器 状态 信息 的 新 
命令 ， 存 储 命 令 执行 结果 以 便 在 重复 请 求 时 节省 时 间 的 缓存 系统 ， 以 及 
记录 错误 信息 和 调试 信息 的 日 志 系 统 。 接 下 来 将 介绍 这 些 组 件 。 


01. 状态 命令 














首先 ， 我 们 有 了 一 种 新 的 查询 。 它 有 自己 的 格式 ， 并 且 通 过 
ConcurrentStatusCommand 类 处 理 。 该 类 可 获取 服务 器 所 使 用 的 
ThreadPoolExecutor 对 象 ， 并 且 获 取 该 执行 器 的 相关 状态 信息 : 





public class ConcurrentStatusCommand extends Command { 
public ConcurrentStatusCommand (String[] command) { 
super (command) ; 
setCacheable( false); 


@Override 


public String execute() { 
StringBuildersb=new StringBuilder(); 
ThreadPoolExecutor executor=ConcurrentServer.getExecutor(); 
Logger.sendMessage(sb.toString()); 
return sb.toString(); 
} 
} 





可 以 从 该 服务 器 获取 的 信息 如 下 。 


e getActiveCount(): 该 方法 返回 执行 并 发 任务 的 大 致 任务 
数 。 线 程 池 中 可 能 有 更 多 线程 ， 但 是 它们 都 是 空闲 的 。 

e getMaximumPoolSize(): 该 方法 返回 了 执行 器 可 拥有 的 工作 

线程 的 最 大 数目 。 

getCorePoolSize(): 该 方法 返回 了 执行 器 拥有 的 核心 工作 

线程 数目 。 这 个 数字 决定 了 线程 池 中 线程 数 的 最 小 值 。 

getPoolSize(): 该 方法 返回 了 当前 线程 池 中 的 线程 数 。 

getLargestPoolSize(): 该 方法 返回 了 线程 池 在 执行 期 间 的 

最 大 线程 数 。 

getCompletedTaskCount(): 该 方法 返回 了 执行 器 已 经 执行 

的 任务 数 。 

getTaskCount(): 该 方法 返回 了 已 预定 执行 任务 的 大 致 数 

目 


SEE 该 方法 返回 了 在 任务 队列 中 等 待 的 任 
务 数 。 














因为 使 用 Executor 类 的 newFixedThreadPool() 方 法 创建 了 执行 
器 ， 那 么 它 的 最 大 工作 线程 数 和 核心 工作 线程 数 相同 。 


02. 缓存 系统 


并 行 服务 器 中 带 有 一 个 缓存 系统 ， 其 作用 是 避免 重复 搜索 那些 近期 
己 经 进行 过 的 数据 。 该 缓存 系统 有 如 下 三 个 要 素 。 


e CacheItem 类 : 该 类 用 于 描述 在 缓存 中 存放 的 每 个 元 素 ， 而 且 
它 有 如 下 四 个 属性 。 
o 在 缓存 中 存储 的 命 命令 。 我 们 将 Query 和 Report 命 令 存放 在 
ZEAE ZA 
o 该 命令 所 产生 的 响应。 








o 绥 存 中 某 一 项 的 创建 日 期 。 
o 该 项 在 缓存 中 的 最 后 访问 时 间 。 
e CleanCacheTask 类 : 如 采 在 缓存 中 存储 所 有 命令 并 从 未 删 
除 ， 那 么 缓存 的 大 小 就 会 无 限制 增加 。 为 了 避免 这 种 情况 ， 我 
们 还 可 以 创建 一 个 任务 删除 缓存 中 的 元 素 ， 并 将 该 任务 作为 一 
个 Thread 对 象 实现 。 有 如 下 两 种 供 选 方案 。 
o 你 可 以 为 缓存 设 定 最 大 规模 。 如 果 绥 存 中 的 元 素数 大 于 最 
大 值 ， 束 可 以 将 那些 近期 很 少 访问 的 元 素 删 除 。 
o 你 可 以 删除 缓存 中 那些 在 某 个 预定 时 段 内 未 被 访问 的 元 
素 。 我 们 将 要 采用 的 就 是 这 种 方式 。 
ParallelCache 类 : 该 类 实现 了 在 缓存 中 存储 和 检索 各 元 素 的 
操作 。 为 了 在 绥 存 中 存储 数据 ， 我 们 采用 了 一 种 
ConcurrentHashMap 数 据 结构 。 因 为 缓存 由 服务 器 所 有 任务 
共享 ， 我 们 必须 采用 一 种 同步 机 制 保护 对 缓存 的 访问 ， 以 避免 
数据 竞争 条 件 。 有 如 下 三 种 供 选 方案 。 

o 我 们 可 以 使 用 一 种 non-synchronized 型 的 数据 结构 〈 例 
如 HashMap) 并 且 加 入 必要 代码 同步 对 该 数据 结构 的 各 种 
访问 ， 例 如 ， 采 用 锁 。 你 也 可 以 使 用 Collections 类 的 
synchronizedMap() 方 法 将 一 个 HashMap 转 换 为 一 
个 synchronized 型 结构 。 

使 用 synchronized 型 的 数据 结构 ， 例 如 Hashtable。 对 
R 我 们 不 会 形成 数据 竞争 条 件 ， 但 是 性 能 会 更 
$ 


使 用 并 发 数据 结构 ， 例 如 ConcurrentHashMap 类 ， 访 类 
消除 了 出 现 数据 竞争 条 件 的 可 能 性 ， 而 且 该 类 被 优化 用 于 
高 并 发 环境 中 。 我 们 将 使 用 ConcurrentHashMap 类 的 对 
象 实现 这 种 方案 。 


CleanCacheTask 类 的 代码 如 下 : 























(0) 


(0) 








public class CleanCacheTask implements Runnable { 


private final ParallelCache cache; 


public CleanCacheTask(ParallelCache cache) { 
this.cache = cache; 


} 


@Override 


public void run() { 
try { 
while (!Thread.currentThread().interrupted()) { 
TimeUnit.SECONDS.sleep(1@) ; 
cache. cleanCache(); 


} catch (InterruptedException e) { 





该 类 中 有 一 个 ParallelCache 对 象 ， 并 且 每 10 秒 钟 ， 就 会 执 

行 ParallelCache 实 例 的 cleanCache() 方 法 。ParallelCache 类 
有 五 种 不 同 的 方法 。 首 先 ， 该 类 的 构造 函数 初始 化 了 该 缓存 的 元 
素 。 它 创建 了 ConcurrentHashMap 对 象 并 且 启 动 了 一 个 执 

行 CleanCacheTask 类 的 线程 : 





public class ParallelCache { 


private final ConcurrentHashMap<String, CacheItem> cache; 
private final CleanCacheTask task; 
private final Thread thread; 
public static intMAX LIVING TIME MILLIS = 600 666; 
public ParallelCache() { 
cache=new ConcurrentHashMap<>(); 
task=new CleanCacheTask(this) ; 
thread=new Thread(task) ; 
thread.start(); 


} 


然后 ， 该 类 中 还 有 两 个 方法 可 用 于 存储 和 检索 缓存 中 的 元 素 。 我 们 
人 shMap， 并 使 用 get() 方 法 在 HashMap 
WAR IU RR 








public void put(String command, String response) { 
CacheItem item = new CacheItem(command, response); 
cache.put(command, item); 


} 


public String get (String command) { 
CacheItem item=cache.get(command) ; 
if (item==null) { 


03. 


return null; 


item.setAccessDate(new Date()); 
return item.getResponse(); 


} 





然后 ，CleanCacheTask 类 清理 缓存 的 方法 如 下 : 


public void cleanCache() { 
Date revisionDate = new Date(); 
Iterator<CacheItem> iterator = cache.values().iterator(); 


while (iterator.hasNext()) { 
CacheItem item = iterator.next(); 
if (revisionDate.getTime() - item.getAccessDate().getTime() 
>MAX_LIVING TIME MILLIS) { 
iterator.remove(); 








最 后 ， 还 有 一 个 用 于 关闭 缓存 的 方法 ， 该 方法 可 中 断 执 
行 CleanCacheTask 类 的 线程 ， 并 且 返 回 缓存 中 存储 的 元 素数 。 





public void shutdown() { 
thread. interrupt(); 
} 


public intgetItemCount() { 
return cache.size(); 


} 





日 志 系 统 


在 本 章 所 有 例子 中 ， 我 们 都 使 用 System.out.println() 方 法 将 信 

忆 肥 人 馈 到 控制 台 。 当 你 实现 的 是 一 个 准备 在 生产 环境 中 执行 的 企业 
应 用 程序 时 ， 最 好 的 方法 束 是 使 用 日 志 系 统 记录 调试 信息 和 错误 信 
Iho Log] se Java} m SEHMI H BRA 在 本 例 中 ， 我 们 将 实现 
自己 的 日 志 系统 ， 该 系统 采用 了 生产 者 /消费 者 并 及 设计 模式 。 使 
用 日 志 系 统 的 任务 将 作为 生产 者 ， 而 把 日 志 信息 写 入 文件 的 特别 任 
务 〈 作 为 一 个 线程 执行 ) 将 作为 消费 者 。 该 日 志 系统 的 组 件 如 下 。 





e LogTask: 该 类 实现 了 日 志 消 费 者 ， 它 可 每 10 秒 钟 读 取 队 列 中 
oe 的 日 志 消 息 并 将 其 写 入 文件 。 该 类 通过 一 个 Thread 对 象 
来 执行 。 

e Logger: 这 是 日 志 系 统 的 主 类 。 它 有 一 个 队列 ， 生 产 者 将 存 
入 信息 ， 而 消费 者 将 读 取 这 些 信 息 。 它 还 提供 了 一 个 可 将 消息 
加 入 队列 的 方法 ， 以 及 一 个 获取 队列 存储 的 所 有 消息 并 将 其 写 
入 人 磁盘 的 方法 。 


实现 该 队列 ， 与 缓存 系统 相同 ， 我 们 需要 采用 一 种 并 发 数据 结构 ， 
以 避免 任何 数据 不 一 致 的 错误 。 我 们 有 如 下 两 个 供 选 方案 。 


。 使 用 阻塞 型 数据 结构 。 当 队列 为 满 〈 在 我 们 的 例子 中 ， 队 列 永 
不 会 满 ) 或 者 为 空 时 ， 将 会 阻 旱 线程 。 

。 使 用 非 阻塞 型 数据 结构 。 如 果 队 列 为 满 或 者 为 空 时 ， 将 会 返回 
一 个 特定 值 。 


我 们 选择 了 一 种 非 阻 塞 型 数据 结构 ， 即 ConcurrentLinkedQueue 
类 ， 它 实现 了 Queue 接 口 。 我 们 使 用 offer( ) 方 法 将 元 素 插入 队 
列 ， 使 用 pol1() 方 法 从 队列 中 获取 元 素 。 


LogTask 类 的 代码 非常 简单 : 











public class LogTask implements Runnable { 


@Override 
public void run() { 
try { 
while (Thread.currentThread().interrupted()) { 
TimeUnit.SECONDS.sleep(1@) ; 
Logger .writeLogs(); 


} catch (InterruptedException e) { 
Logger .writeLogs(); 


} 
} 





该 类 实现 了 Runnable 接 口 ， 而 且 在 run() 方 法 中 ， 每 10 秒 钟 调用 一 
次 Logger 类 的 writeLogs() 方 法 。 


Logger 类 有 5 个 不 同 的 静态 方法 。 首 先 ， 用 一 个 静态 代码 块 初始 化 


并 局 动 执 行 LogTask 的 线程 ， 并 且 该 线程 创建 用 于 存放 日 志 数 据 的 


ConcurrentLinkedQueue 类 : 


public class Logger { 


private static ConcurrentLinkedQueue<String>logQueue = new 
ConcurrentLinkedQueue<String>(); 


private static Thread thread; 


private static final String LOG FILE = Paths.get("output", 
"server.log").toString(); 
static { 
LogTask task = new LogTask(); 
thread = new Thread(task); 


} 





然后 ，Logger 类 中 含有 一 种 sendMessage() 方 法 ， 该 方法 接收 一 
个 字符 串 作 为 参数 并 且 将 该 消息 存放 在 队列 之 中 。 该 方法 使 
用 offer() 方 法 存放 消息 : 


public static void sendMessage(String message) { 
logQueue.offer(new Date()+": "+message) ; 


} 








Logger 类 中 的 关键 方法 是 writeLogs() 类 。 该 方法 使 
用 ConcurrentLinkedQueue 类 的 pol1() 方 法 获取 并 删除 队列 中 存 
储 的 所 有 日 志 消 息 ， 并 将 它们 写 入 文件 。 








public static void writeLogs() { 
String message; 
Path path = Paths.get(LOG FILE); 
try (BufferedWriterfileWriter = Files.newBufferedWriter(path, 
StandardOpenOption .CREATE, 
StandardOpenOption.APPEND)) { 
while ((message = logQueue.poll()) != null) { 


fileWriter.write(new Date()+": "+message) ; 
fileWriter.newLine(); 
} 
} catch (IOException e) { 
e.printStackTrace(); 
} 
} 





最 后 还 有 两 个 方法 : 一 个 用 于 删 减 日 志文 件 ， 另 一 个 用 于 结束 日 志 
系统 的 执行 器 ， 该 方法 会 中 断 执 行 LogTask 的 线程 。 


public static void initializeLog() { 
Path path = Paths.get(LOG_FILE); 
if (Files.exists(path)) { 
try (OutputStream out = Files.newOutputStream(path, 
StandardOpenOption.TRUNCATE_EXISTING)) { 
} catch (IOException e) { 
e.printStackTrace(); 


thread.start(); 


public static void shutdown() { 
thread.interrupt(); 


} 





3.3.4 ”对 比 两 种 解决 方案 


WE, 训 试 一 下 串 行 服务 器 和 并 发 服务 圳 ， 观 察 哪 种 解决 方案 会 使 服务 
需 性 能 更 好 。 我 们 实现 了 四 个 类 进行 自动 测试 ， 筷 们 可 以 同 服 务 右 发 出 
查询 。 这 些 类 如 下 所 示 。 


e SerialClient: 该 类 实现 了 一 个 可 用 的 串 行 服务 器 客户 端 。 该 客 
户 端 产生 了 9 个 使 用 Query 消 息 的 请 求 和 一 个 使 用 Report 消 息 的 查 
询 。 访 客户 端 将 重复 该 过 程 10 次 ， 这 样 就 会 请 求 90 次 Query 碍 询 和 
10 次 Report 查 询 。 

。 MultipleSerialClients: 该 类 模拟 了 同时 存在 多 个 客户 端的 情 
况 。 对 于 这 种 情形 ， 我 们 为 每 个 Serialclient 创 建 一 个 线程 并 

且 同 时 运行 这 些 客户 端 以 得 看 服务 器 的 性 能 。 我 们 测试 了 1 到 5 个 并 
发 客户 端 。 

e ConcurrentClient: 该 类 与 SerialClient 类 相似 ， 只 不 过 它 调 

用 的 是 并 发 服务 器 而 非 串 行 服务 器 。 

MultipleConcurrentClients: 该 类 

与 MultipleSerialClients 类 相似 ， 只 不 过 它 调 用 的 是 并 发 服务 

器 而 非 串 行 服务 器 。 


要 测试 串 行 服务 器 ， 可 以 按照 下 述 步 骤 进行 。 








(1) 月 动 串 行 服务 器 并 且 等 待 其 初始 化 。 


(2) 启动 MultipleSerialClients 类 ， 该 类 首先 启动 一 
个 SerialClient 类 ， 然 后 依次 启动 两 个 、 三 个 、 四 个 ， 最 后 启动 五 
个 SerialClient 类 。 


对 于 并 发 服务 器 ， 你 可 以 按照 类 似 过 程 进行 处 理 。 
(1) 局 动 并 发 服务 器 并 且 等 待 其 初始 化 。 


(2) 启动 MultipleConcurrentClients 类 ， 该 类 首先 启动 一 
个 ConcurrentClient 类 ， 人 然后 依次 启动 两 个 、 三 个 、 四 个 ， 最 后 启动 
五 个 ConcurrentClient 类 。 


为 比较 这 两 个 版 本 的 执行 时 间 ， 我 们 使 用 JMH 框 架 〈( 请 查看 名 为 “Code 
Tools: jmh” 的 文章 〉 实 现 了 一 个 微 基 准 测 试 ， 访 框架 支持 在 Java 中 实现 
微型 基准 测试 。 使 用 面向 基准 测试 的 框架 是 一 种 比较 好 的 解决 方案 ， 可 
直接 使 用 其 中 的 currentTimeMi1l1lis() 方 法 或 者 nanoTime() 方 法 测量 
时 间 。 我 们 在 两 套 计 算 机 架构 上 分 别 将 其 执行 10 次 。 


。 一 台 计 算 机 配置 了 Intel Core i5-5300 CPU. Windows 7 操作 系统 和 
16GB 的 RAM。 访 处理 器 有 两 个 核 ， 每 个 核 可 以 执行 两 个 线程 ， 这 
样 我 们 就 有 了 四 个 并 行 线程 。 

。 另 一 台 计 算 机 配置 了 AMD A8-640 CPU, Windows 10 操作 系统 和 
8GB 的 RAM。 该 处 理 器 有 四 个 核 。 


全 部 执行 结果 如 下 。 














AMD 
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上 表 各 单元 中 给 出 的 是 每 个 客户 端的 平均 时 间 〈 单 位 : 秒 ) 。 我 们 可 以 


串 行 





得 出 以 下 结论 。 


© 在 两 种 染 构 上 的 执行 时 间 差 别 很 大 ， 这 需要 考虑 多 方面 的 因素 ， 例 
如 硬盘、 内 存 和 操作 系统 等 都 会 影响 性 能 。 不 过 ， 两 种 架构 下 得 到 
加 速 比 比较 相近 。 

。 两 种 服务 器 的 性 能 均 受 加 服务 器 发 送 请 求 的 并 发 客户 端 数量 的 影 


啊 。 
。 ae 站， 并 发 版 本 的 执行 时 间 均 比 串 行 版 本 的 执行 时 间 更 








3.3.5 ”其 他 重要 方法 


贯穿 本 章 ， 我 们 使 用 了 Java 并 发 API 中 的 一 些 类 实现 执行 器 框架 的 基础 
能 。 这 些 类 还 有 其 他 一 些 重要 方法 。 在 本 市 ， 我 们 将 讲解 其 中 一 部 





Executors 类 提供 了 其 他 一 些 创建 ThreadPoolExecutor 对 象 的 方法 。 
这 些 方法 有 如 下 几 种 。 





newCachedThreadPool(): 该 方法 创建 了 一 
个 ThreadPoolExecutor 对 象 ， 会 重新 使 用 空间 的 工作 线程 ， 但 是 
ae 它 也 会 创建 一 个 新 的 工作 线程 。 在 此 并 没有 最 大 工作 线 
ER 
newSingleThreadExecutor(): 该 方法 创建 了 一 个 仅 使 用 单个 工 
作 线 程 的 ThreadPoolExecutor 对 象 。 发 送 给 执行 器 的 任务 会 存储 
在 一 个 队列 中 ， 直 到 该 工作 线程 可 以 执行 它们 为 止 。 
CountDownLatch 类 额外 提供 了 如 下 几 种 方法 。 
o await(long timeout, TimeUnit unit): 该 方法 将 一 直 等 
待 ， 直 到 内 部 计数 器 数值 为 0 并 超过 参数 中 指定 的 时 间 为 止 。 
如 果 超 时 ， 则 该 方法 返回 false 值 。 
o getCount(): 该 方法 返回 内 部 计数 器 的 实际 值 。 


Java 中 有 两 种 类 型 的 并 发 数据 结构 。 


。 阻塞 型 数据 结构 : 当 你 调用 茶 个 方法 但 是 类 库 无 法 执行 该 项 操作 时 
〈 例 如， 你 试图 获取 菏 个 元 系 而 数据 结构 是 空 的 ) ， 这 种 结构 将 阻 
塞 线 程 直到 这 些 操作 可 以 执行 。 

o 非 阻 塞 型 数据 结构 : 当 你 调用 茶 个 方法 但 是 类 库 无 法 执行 该 项 操作 





时 《因为 结构 为 空 或 者 为 满 》 ， 该 方法 会 返回 一 个 特定 值 或 抛 出 一 
个 异常 





既 有 实现 上 述 两 种 行为 的 数据 结构 ， 也 有 仅 实 现 其 中 一 种 行为 的 数据 结 
构 。 通 和 常 ， 阻 压 型 数据 结构 也 会 实现 具有 非 阻 塞 型 行为 的 方法 ， 而 非 阻 
塞 型 数据 结构 并 不 会 实现 阻塞 型 方法 。 


实现 阻塞 型 操作 的 方法 如 下 。 


e put(). putFirst(). putLast(): 这 些 方法 将 一 个 元 素 插入 数据 
结构 。 如 果 该 数据 结构 已 满 ， 则 会 阻塞 该 线程 ， 直 到 出 现 空间 为 
IE 








° ket takeFirst()、takeLast(): 这 些 方法 返回 并 且 删 除数 
据 结构 中 的 一 个 元 素 。 如 果 该 数据 结构 为 空 ， 则 会 阻塞 该 线程 直到 
其 中 有 元 素 为 止 。 


实现 非 阻 玛 型 操作 的 方法 如 下 。 


。add()、addFirst()、addLast(): 这 些 方法 将 一 个 元 素 插入 数据 
结构 。 如 果 该 数据 结构 已 满 ， 则 会 抛 出 一 

个 IllegalstateException 异 常 。 
remove()、removeFirst()、removeLast(): 这 些 方法 将 返回 并 
且 删 除数 据 结 构 中 的 一 个 元 素 。 如 果 该 结构 为 空 ， 则 这 些 方法 将 抛 
出 一 个 IllegalStateException 异 常 。 
element()、getFirst()、getLast(): 这 些 方 法 将 返回 但 是 不 
删除 数据 结构 中 的 一 个 元 素 。 如 果 该 数据 结构 为 空 ， 则 会 抛 出 一 
个 IllegalstateException 异 常 。 
offer()、offerFirst()、offerLast(): 这 些 方 法 可 以 将 一 个 
元 素 插入 数据 结构 。 如 果 该 结构 已 满 ， 则 返回 一 个 Boolean 

值 false。 

poll(). pollFirst(). pollLast(): 这 些 方法 将 返回 并 且 删 除 
数据 结构 中 的 一 个 元 素 。 如 果 该 结构 为 空 ， 则 返回 null 值 。 
peek()、peekFirst()、peekLast(): 这 些 方法 返回 但 是 并 不 删 
除数 据 结构 中 的 一 个 元 素 。 如 果 该 数据 结构 为 空 ， 则 返回 null 值 。 


第 11 章 将 更 加 详细 地 讲述 并 发 数据 结构 。 
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在 简单 的 并 发 应 用 程序 中 ， 本 章 使 用 Runnab1le 接 口 和 Thread 类 执行 并 
发 任务 。 我 们 创建 和 管理 这 些 线程 并 且 控 制 其 执行 。 但 是 在 大 型 并 发 应 
用 程序 中 ， 不 能 采用 这 种 方式 ， 因 为 它 会 导致 很 多 问题 。 在 这 种 情况 
下 ，Java 并 发 API 引 入 了 执行 器 框架 。 本 章 讲述 了 该 框架 的 基本 特征 及 
其 构成 组 件 。 首 先 ， 我 们 探讨 了 Executor 接 口 ， 它 定义 了 将 Runnable 
任务 发 送 给 执行 器 的 基本 方法 。 该 接口 有 一 个 子 接口 
ExecutorService， 该 子 接口 所 包含 的 方法 可 同 执 行 器 发送 返回 结 
的 任务 (这 些 任 务实 现 了 Callable 接 口 ， 正 如 第 5 章 即 将 讲 到 的 那样 》 
和 一 个 任务 列表 。 


ThreadPoolExecutor 类 是 这 两 种 接口 的 基本 实现 增加 额外 的 方法 以 
获取 有 关 执 行 器 状态 的 信息 ， 以 及 正在 执行 的 线程 或 任务 的 数量 。 为 该 
类 创建 对 象 最 简单 的 方式 是 使 用 Executors 工 具 类 ， 该 类 包含 了 创建 不 
同类 型 执行 器 的 方法 。 


我 们 已 经 问 你 展示 了 如 何 使 用 执行 器 ， 并 且 使 用 执行 器 实现 了 两 个 实际 
例子 ， 说 明了 如 何 将 串 行 算法 转换 为 并 发 算法 。 第 一 个 例子 是 六 最 近邻 
算法 ， 应 用 于 UCI 机 器 学 习 资 源 库 的 Bank Marketing 数 据 集 。 第 二 个 例 

子 是 客户 端 /服务 器 应 用 程序 ， 用 以 查询 某 银 行 发 布 的 发 展 指数 。 


在 这 两 个 用 例 中 ， 使 用 执行 器 极 大 地 改善 了 性 能 。 


下 一 章 将 介绍 如 何 采 用 执行 器 实现 高 级 技术 。 我 们 将 通过 提高 任务 撤销 
的 可 能 性 ， 完 善 客户 端 /服务 器 应 用 程序 ， 并 且 使 高 优先 级 任务 早 于 低 
优先 级 任务 执行 。 我 们 还 将 展示 如 何 实现 周期 性 执行 的 任务 ， 实 现 一 个 
RSS #Hr lil el ie AE o 


























第 4 章 HOTA GUT ae 


第 3 章 介绍 了 执行 器 的 基本 特征 ， 将 其 作为 改进 执行 大 量 并 发 任务 的 并 
发 应 用 程序 性 能 的 一 种 方式 。 本 章 将 探 完 执行 喜 的 高 级 特性 ， 这 些 特性 
使 它们 成 为 文 持 并 发 应 用 程序 的 强大 工具 。 本 章 将 讲述 以 下 几 项 内 容 。 


。 执行 器 的 高 级 特性 。 

。 第 一 个 例子 : 高 级 服务 器 应 用 程序 。 
。 第 二 个 例子 : 执行 周期 性 任务 。 

。 有 关 执 行 占 的 其 他 信息 。 








4.1 执行 器 的 高 级 特性 


执行 器 是 一 个 类 ， 它 允许 编程 人 员 执 行 并 发 任务 而 无 须 担心 线程 的 创建 
和 和 管理。 编程 人 员 创 建 Runnable 对 象 并 将 其 发 送 给 执行 器 ， 而 执行 器 
创建 和 管理 必要 的 线程 以 执行 这 些 任 务 。 第 3 半 曾 介绍 执行 器 框架 具有 
以 下 基本 特征 。 


。 如 何 创建 执行 句 以 及 在 创建 执行 器 时 有 哪些 不 同 选项 。 

。 如 何 将 并 发 任务 发 送 给 执行 器 。 

。 如 何 控制 执行 器 使 用 的 资源 。 

。 在 执行 器 的 内 部 ， 如 何 使 用 一 个 线程 池 优 化 应 用 程序 的 性 能 。 


无 论 如 何 ， 执 行 器 提供 了 很 多 选项 ， 这 使 其 成 为 并 发 应 用 程序 中 的 一 种 
强大 机 制 。 


4.1.1 任务 的 撤销 


将 任务 发 送 给 执行 器 之 后 ， 还 可 以 撤销 该 任务 的 执行 。 使 用 submit() 
方法 将 Runnable 对 象 发 送 给 执行 器 时 ， 它 会 返回 Future 接 口 的 一 个 实 
现 。 访 类 允许 你 控制 该 任务 的 执行 。 该 类 有 cancel() 方 法 ， 可 用 于 撤 
销 任 务 的 执行 。 该 方法 接收 一 个 布尔 值 作 为 参数 ， 如 果 接 收 到 的 参数 
为 trrue， 那 么 执行 器 执行 该 任务 ， 否 则 执行 该 任务 的 线程 会 被 中 断 。 


以 下 便 是 想 要 撤销 的 任务 无 法 被 撤销 的 情形 。 

。 任务 已 经 被 撤销 。 

。 任务 已 经 完成 了 执行 。 

。 任务 正在 执行 而 提供 给 cancel() 方 法 的 参数 为 false。 

。 在 API 文 档 中 并 未 说 明 的 其 他 原因 。 
cancel() 方 法 返回 了 一 个 布尔 值 ， 用 于 表明 当前 任务 是 否 被 撤销 。 
4.1.2 ”任务 执行 调度 


ThreadPoo1lExecutor 类 是 Executor 接 口 和 ExecutorService 接 口 的 
基本 实现 。 但 是 Java 并 发 API 为 该 类 提供 了 一 个 扩展 类 ， 以 文 持 预定 任 














务 的 执行 ， 这 就 是 ScheduledThreadPoo1lExeuctor 类 。 你 可 以 进行 如 
下 操作 。 


。 在 东 段 延迟 之 后 执行 茶 项 任务 。 
。 周期 性 地 执行 茶 项 任务 ， 包 括 以 固定 速率 执行 任务 或 者 以 固定 延迟 
执行 任务 。 


41.3 重 载 执行 吉方 法 


执行 器 框架 是 一 种 非常 灵活 的 机 制 。 你 可 以 通过 扩展 一 个 已 有 的 类 
(ThreadPoolExecutor 或 者 ScheduledThreadPoolExecutor)〉 实 现 
自己 的 执行 器 ， 获 得 想 要 的 行为 。 这 些 类 中 包括 一 些 便 于 改变 执行 器 工 
作 方 式 的 方法 。 如 果 你 重 载 了 ThreadPoo1Executor 类 ， 就 可 以 重 载 以 
下 方法 。 


e beforeExecute(): 该 方法 在 执行 器 中 的 某 一 并 发 任务 执行 之 前 
被 调用 。 它 接收 将 要 执行 的 Runnable 对 象 和 将 要 执行 这 些 对 象 的 
Thread 对 象 。 该 方法 接收 的 Runnable 对 象 是 FutureTask 类 的 一 个 
实例 ， 而 不 是 使 用 submit( ) 方 法 发 送 给 执行 器 的 Runnable 对 象 。 
afterExecute(): 该 方法 在 执行 器 中 的 某 一 并 发 任务 执行 之 后 被 
调用 。 它 接收 的 是 已 执行 的 Runnable 对 象 和 一 个 Throwable 对 

象 ， 该 Throwable 对 象 存储 了 任务 中 可 能 抛 出 的 异常 。 

与 beforeExecute() 方 法 相同 ，Runnable 对 象 是 FutureTask 类 的 
一 个 实例 。 

newTaskFor(): 该 方法 创建 的 任务 将 执行 使 用 Submit() 方 法 发 送 
的 Runnable 对 象 。 该 方法 必须 返回 RunnableFuture 接 口 的 一 个 实 
现 。 默 认 情 况 下 ，Open JDK 9 和 Oracle JDK 9 返回 FutureTask 类 的 
一 个 实例 ， 但 是 这 在 今后 的 实现 中 可 能 会 发 生变 化 。 


如 果 扩 展 ScheduledThreadPoolExecutor 类 ， 你 可 以 重 

载 decorateTask() 方 法 。 该 方法 与 面 问 预定 任务 的 newTaskFor() 方 
法 类 似 并 且 人 允许 重 载 执行 器 所 执行 的 任务 。 

4.1.4 更 改 一 些 初 始 化 参数 


你 也 可 以 在 执行 器 创建 之 时 更 改 一 些 参数 以 改变 其 行为 。 最 第 用 的 一 些 
参数 如 下 所 示 。 




















e BlockingQueue<Runnable>: 每 个 执行 器 均 使 用 一 个 内 部 的 
BlockingQueue 存 储 等 待 执 行 的 任务 。 可 以 将 该 接口 的 任何 实现 作 
为 参数 传递 。 例 如 ， 更 改 执行 器 执行 任务 的 默认 顺序 。 
ThreadFactory: 可 以 指定 ThreadFactory 接 口 的 一 个 实现 ， 而 
且 执 行 器 将 使 用 该 工厂 创建 执行 该 任务 的 线程 。 例 如 ， 你 可 以 使 
用 ThreadFactory 接 口 创建 Thread 类 的 一 个 扩展 类 ， 保 存 有 关 任 
务 执行 时 间 的 日 志 信 息 。 

RejectedExecutionHandler: 调用 shutdown() 方 法 或 

者 shutdownNow( ) 方 法 之 后 ， 所 有 发 送 给 执行 器 的 任务 都 将 被 拒 
绝 。 可 以 指定 RejectedExecutionHandler 接 口 的 一 个 实现 管理 这 
种 情形 。 


4.2 ”第 一 个 例子 : 高 级 服务 器 应 用 程序 


第 3 半 介 绍 了 一 个 客户 端 /服务 占 应 用 程序 的 例子 。 本 节 实 现 了 一 个 服务 

器 ， 针 对 3.3 克 例子 中 的 发 展 指数 进行 数据 搜索 ， 并 且 实 现 了 一 个 客户 

端 ， 多 次 调用 该 服务 器 ， 以 便 测 试 执行 器 的 性 能 。 

本 节 将 扩展 这 个 例子 ， 为 其 加 入 几 个 特性 ， 如 下 所 示 。 

。 可 以 使 用 新 的 撤销 型 得 询 撤销 服务 右上 执行 的 得 询 。 

。 可 以 使 用 优先 级 参数 控制 查询 执行 的 顺序 。 有 具有 较 高 优先 级 的 任务 
将 优先 执行 。 

。 服务 需 将 计算 任务 的 数量 以 及 使 用 该 服务 器 各 用 户 的 总 执行 时 间 。 

为 了 实现 这 些 新 特征 ， 对 服务 右 做 了 以 下 改动 。 


。 为 每 个 查询 增加 了 两 个 参数 。 第 一 个 参数 是 发 送 碍 询 的 用 尸 名 ， 而 
男 一 个 则 是 查询 的 优先 级 。 查 询 的 新 格式 有 如 下 几 种 。 


O 〇 


(0) 


Oo 


O 〇 








Query if}: 格式 

ANg; username; priority; codCountry ; codIndicator; year 
其 中 ，username 是 用 户 名 ，priority 是 查询 优先 

级 ，codCountry 是 国家 代码 ，codIndicator 是 指数 代 

人 码 ，year 是 可 选 参数 ， 表 示 想 要 查询 的 年 份 。 

Report 碍 询 : 格式 

Ayr; username;priority;codIndicator， 其 中 ，username 
是 用 户 名 ，priority 是 查询 优先 级 ，codIndicator 是 你 想 要 
制 表 的 指数 代码 。 

Status 查 询 : 格式 为 sjusername;priority， 其 

中 ，username 是 用 户 名 ，priority 是 查询 的 优先 级 。 

stop 得 询 : 格式 为 z;username;priority， 其 中 ，username 
是 用 户 名 ，priority 是 查询 的 优先 级 。 


。 还 实现 了 一 种 新 查询 ， 如 下 所 示 。 


O 


Cancel 查 询 : 格式 为 c;username;priority,， 其 
中 ，username 是 用 户 名 ，priority 是 查询 的 优先 级 。 


。 实现 了 目 己 的 执行 器 进行 如 下 操作 。 


O 〇 


统计 每 个 用 户 对 服务 器 的 使 用 情况 。 


o 按照 优先 级 执行 任务 。 


o 控制 任务 的 拒绝 。 
o 修改 了 ConcurrentServer 和 RequestTask 类 以 适应 服务 器 的 
新 要 素 。 


服务 器 的 其 他 要 系 〈 绥 存 系统 、 日 志 系 统 和 DAO 类 等 ) 都 相同 ， 因 此 不 
HR. 


4.2.1 ServerExecutor% 


如 前 所 述 ， 我 们 实现 了 自己 的 执行 器 执行 服务 费 任 务 ， 也 实现 了 一 些 颌 
外 的 但 是 必要 的 类 用 以 提供 所 有 功能 。 现 在 介绍 一 下 这 些 类 。 


01. 统计 对 象 
该 服务 占 将 计算 每 个 用 户 在 服务 占 上 执行 的 任务 数量 ， 以 及 这 些 任 


务 的 总 执行 时 间 。 为 了 存储 这 样 的 数据 ， 我 们 实现 了 
EXxecutorStatistics 类 。 它 有 两 个 用 于 存储 这 些 信息 的 属性 。 





public class ExecutorStatistics { 


private AtomicLong executionTime = new AtomicLong(@L) ; 
private AtomicInteger numTasks = new AtomicInteger(@) ; 


这 些 属性 都 是 文 持 在 单个 变量 上 进行 原子 操作 的 
AtomicVariables 型 变量 ， 可 以 在 不 同 的 线程 中 使 用 这 些 变量 ， 
而 且 不 需要 采用 任何 同步 机 制 。 然 后 ， 该 类 还 有 两 个 方法 可 以 分 别 
增加 任务 数 和 执行 时 间 。 











public void addExecutionTime(long time) { 
executionTime.addAndGet (time); 


} 
public void addTask() { 
numTasks.incrementAndGet(); 


} 





最 后 ， 我 们 还 增加 了 可 获取 上 述 两 个 属性 值 的 方法 ， 而 且 重 载 
toString() 方 法 以 可 读 方式 获取 信息 。 


@Override 
public String toString() { 


return "Executed Tasks: "+ getNumTasks()+". Execution Time: "+ 
getExecutionTime(); 





02. HEFE EAEI PE till ae 


创建 执行 器 时 ， 可 以 指定 一 个 类 用 以 管理 其 拒绝 的 任务 。 如 果 在 执 
行 器 已 调用 shutdown() 或 shutdownNow() 方 法 之 后 提交 任务 ， 则 
该 任务 会 被 执行 器 拒绝 。 


为 了 控制 这 种 情况 ， 我 们 实现 了 RejectedTaskController 类 。 该 
类 实现 了 RejectedExecutionHandler 接 口 和 
rejectedExecution() 方 法 。 


public class RejectedTaskController implements 
RejectedExecutionHandler { 


@Override 
public void rejectedExecution(Runnable task, ThreadPoolExecutor 
executor) { 
ConcurrentCommand command=(ConcurrentCommand)task; 


try (Socket clientSocket=command.getSocket(); 
PrintWriter out = new PrintWriter(clientSocket 
.getOutputStream(),true) ; 
) { 


String message="The server is shutting down."+ 
" Your request can not be served. "+ 
" Shutting Down: "+ 
String. valueOf(executor.isShutdown()) + ". Terminated: "+ 
String. valueOf(executor.isTerminated())+ ". Terminating: " 
String. valueOf(executor.isTerminating()); 
System.out.println(message) ; 
} catch (IOException e) { 
e.printStackTrace(); 
} 
} 





每 个 被 拒绝 的 任务 都 要 调用 一 次 rejectedExecution() 方 法 ， 而 
该 方法 将 接收 被 拒绝 的 任务 和 拒绝 该 任务 的 执行 器 作为 参数 。 


03. 执行 器 任务 





向 执行 器 提交 Runnable 对 象 时 ， 它 并 不 会 直接 执行 该 对 象 ， 而 是 
创建 一 个 新 的 对 象 ， 即 FutureTask 类 的 一 个 实例 ， 而 且 这 项 任务 
由 执行 器 的 工作 线程 执行 。 


在 我 们 的 例子 中 ， 为 了 度量 任务 的 执行 时 间 ， 我 们 在 ServerTask 
类 中 实现 了 自己 的 FutureTask 类 。 该 类 扩展 了 FutureTask 类 并 且 
实现 了 Comparable 接 口 ， 如 下 所 示 : 


public class ServerTask<V> extends FutureTask<V> implements 
Comparable<ServerTask<V>>{ 

从 内 部 看 ， 该 类 存储 了 将 作为 ConcurrentCommand 对 象 执 行 的 碍 

询 。 


在 构造 函数 中 ， 该 类 使 用 FutureTask 类 的 构造 函数 并 且 存 储 了 


iene nas a 


public ServerTask(ConcurrentCommand command) { 
super(command, null); 
this .command=command; 


} 


public ConcurrentCommand getCommand() { 


return command; 


} 


public void setCommand(ConcurrentCommand command) { 
this.command = command; 


} 


最 后 ， 访 类 类 还 实现 了 compareTo( ) 操 作 ， 用 于 比较 两 
个 ServerTask 实 例 存储 的 命令 ， 如 下 所 示 : 





@Override 
public int compareTo(ServerTask<V> other) { 


return command. compareTo(other.getCommand()); 


} 





04. 执行 器 


既然 有 了 执行 器 的 辅助 类 ， 那 么 必须 实现 执行 器 本 身 。 我 们 实现 了 
针对 这 一 用 途 的 ServerExecutor 类 ， 它 扩展 了 
ThreadPoo1lExecutor 类 并 且 还 有 一 些 内 部 属性 ， 如 下 所 示 。 


e startTimes: 这 是 用 于 存储 每 个 任务 开始 日 期 的 程序 代 
人 码 ConcurrentHashMap， 其 键 为 ServerTask 对 象 (一 
个 Runnable 对 象 ) ， 而 其 值 为 Date 对 象 。 

e executionStatistics: 这 是 用 于 存储 每 个 用 户 使 用 情况 统 
计 的 ConcurrentHashMap， 其 键 为 用 户 名 ， 而 其 值 
为 ExecutorStatistics 对 象 。 

e CORE POOL SIZE、MAXIMUM POOL SIZE 和 
KEEP_ALIVE_TIME: 这 些 是 用 于 定义 执行 器 特征 的 常量 。 

e REJECTED_TASK_CONTROLLER: 这 是 一 
个 RejectedTaskController 类 的 属性 ， 用 于 控制 执行 器 拒绝 
的 任务 。 


这 可 以 通过 以 下 代码 解释 。 











public class ServerExecutor extends ThreadPoolExecutor { 
private ConcurrentHashMap<Runnable, Date> startTimes; 
private ConcurrentHashMap<String, ExecutorStatistics> 

executionStatistics; 
private static int CORE POOL SIZE = Runtime.getRuntime() 
.availableProcessors(); 
private static int MAXIMUM_POOL_SIZE = Runtime. getRuntime() 
.availableProcessors(); 

private static long KEEP_ALIVE_TIME = 10; 


private static RejectedTaskController REJECTED _TASK_CONTROLLER 
= new RejectedTaskController(); 


public ServerExecutor() { 
super(CORE_POOL_SIZE, MAXIMUM POOL_SIZE, KEEP_ALIVE TIME, 
TimeUnit.SECONDS, new PriorityBlockingQueue<>(), 
REJECTED_TASK_CONTROLLER) ; 


startTimes = new ConcurrentHashMap<>(); 
executionStatistics = new ConcurrentHashMap<>(); 





该 类 的 构造 函数 调用 父 类 的 构造 函数 ， 创 建 了 一 

个 PriorityBlockingQueue 类 ， 用 于 存储 那些 将 在 执行 器 中 执行 
的 任务 。 该 类 根据 compareTo() 方 法 的 执行 结果 对 元 素 进 行 排序 
(因此 其 中 存储 的 元 素 必须 实现 Comparable 接 口 ) 。 该 类 的 实现 
将 允许 我 们 按照 优先 级 执行 任务 。 


然后 ， 重 载 了 ThreadPoolExecutor 类 的 一 些 方法 。 首 先 

是 beforeExecute() 方 法 。 该 方法 在 每 个 任务 执行 之 前 执行 。 它 
接收 ServerTask 对 象 和 执行 该 任务 的 线程 作为 参数 。 在 本 例 中 ， 
将 实际 日 期 存放 于 ConcurrentHashMap， 这 样 每 个 任务 的 起 始 日 
期 如 下 所 示 。 





protected void beforeExecute(Thread t, Runnable r) { 
super.beforeExecute(t, r); 


startTimes.put(r, new Date()); 


} 





下 一 个 方法 是 afterExecute() 方 法 。 该 方法 在 执行 器 的 每 个 任务 
执行 完毕 后 执行 ， 并 接收 已 执行 的 ServerTask 对 象 科 Throwable 
对 象 ， 其 中 该 方法 将 已 执行 的 ServerTask 对 象 作为 参数 。 作 为 最 
后 一 个 参数 只 有 任务 执行 抛 出 异常 时 才 会 有 值 。 在 我 们 的 例子 中 ， 
将 使 用 该 方法 进行 如 下 操作 。 


(1) 计算 任务 的 执行 时 间 。 
(2) 按照 下 述 方式 更 新 用 户 的 统计 信息 。 








@Override 

protected void afterExecute(Runnable r, Throwable t) { 
super.afterExecute(r, t); 
ServerTask<?> task=(ServerTask<?>)r; 
ConcurrentCommand command=task.getCommand() ; 


if (t==null) { 

if (!task.isCancelled()) { 
Date startDate = startTimes.remove(r); 
Date endDate=new Date(); 
long executionTime= endDate.getTime() - 

startDate.getTime() ; 
ExecutorStatistics statistics = executionStatistics 
.computeIfAbsent (command.getUsername(), 


n -> new ExecutorStatistics()); 
statistics.addExecutionTime(executionTime) ; 
statistics.addTask(); 

ConcurrentServer.finishTask (command.getUsername(), 

command) ; 
} 
else { 

String message="The task" + command.hashCode() + "of 
user" + command.getUsername() + "has 
been cancelled."; 

Logger.sendMessage(message) ; 


} else { 
String message="The exception "+t.getMessage()+" has 
been thrown."; 
Logger.sendMessage(message) ; 


} 
} 





最 后 重 载 newTaskFor() 方 法 。 该 方法 执行 后 会 转换 发 送 给 执行 器 
的 Runnable 对 象 ， 使 用 执行 器 待 执行 的 FutureTask 实 例 中 的 
submit() 方 法 。 在 我 们 的 例子 中 ， 使 用 ServerTask 对 象 蔡 代 默认 
的 FutureTask 对 象 。 


@Override 
protected <T> RunnableFuture<T> newTaskFor(Runnable runnable, T 
value) { 
return new ServerTask<T>(runnable) ; 


} 


我 们 在 执行 器 中 引入 了 一 种 额外 方法 ， 将 执行 器 中 存储 的 所 有 统计 
信息 写 入 日 志 系 统 。 稍 后 你 将 看 到 ， 该 方法 将 在 服务 器 执行 结束 时 
被 调用 ， 代 码 如 下 所 示 : 





public void writeStatistics() { 


for(Entry<String, ExecutorStatistics> entry: executionStatistics 
.entrySet()) { 


String user = entry.getKey(); 
ExecutorStatistics stats = entry.getValue(); 
Logger.sendMessage(user+":"+stats) ; 





4.2.2 ”命令 类 


类 执行 发 送 给 服务 露 的 各 种 查询 。 可 以 同 服 务 器 发 送 以 下 5 种 碍 
VW) o 


。 Query H: 这 种 查询 用 于 获取 有 关 某 个 国家 、 某 个 指数 以 及 某 个 
年 份 〈 可 选 ) 的 信息 ， 通 过 ConcurrentQueryCommand 类 实现 。 

。 Report 碍 询 : 这 种 查询 用 于 获取 有 关 某 个 指数 的 信息 ， 通 过 
ConcurrentReportCommand 类 实现 。 

e Status 人 查询 : 这 种 查询 用 于 获取 服务 器 状态 的 信息 ， 通 过 
ConcurrentStatusCommand 类 实现 。 

e Cancel1 奋 询 : 这 种 查询 用 于 撤销 某 一 用 户 任 务 的 执行 ， 通 过 
ConcurrentCancelCommand 类 实现 。 

e Stop W: 这 种 查询 用 于 停止 服务 器 的 执行 ， 通 过 
ConcurrentStopCommand 类 实现 。 











我 们 还 有 ConcurrentErrorCommand 类 和 ConcurrentCommand 关 类 ， 前 
aoe 于 管理 某 一 未 知 命 令 到 达 服 务 器 的 情况 ， 后 一 种 类 是 所 有 命令 
JASKR o 


01. ConcurrentCommand2 
这 是 每 个 命令 的 基 类 ， 包 含 所 有 命令 的 共性 行为 ， 如 下 所 述 
。 调用 实现 每 个 命令 特定 逻辑 的 方法 。 
。 将 结果 写 入 客户 端 。 
。 关闭 在 通信 过 程 中 使 用 的 所 有 资源 。 
该 类 扩展 了 Command 类 并 且 实 现 了 Comparable 接 口 和 Runnable 接 


口 。 在 第 3 章 的 例子 中 ， 命 令 都 是 较为 简单 的 类 ， 但 在 本 例 中 ， 并 
发 命令 都 是 将 要 发 送 给 执行 器 的 Runnable 对 象 。 


public abstract class ConcurrentCommand extends Command implements 
Comparable<ConcurrentCommand>, Runnable{ 


该 类 有 以 下 三 个 属性 。 
e username: 该 属性 用 于 存储 发 送 该 查询 的 用 户 名 称 。 





。 priority: 该 属性 用 于 存储 查询 的 优先 级 ， 它 将 决定 查询 的 
执行 顺序 。 
e socket: 该 属性 表示 的 是 用 于 与 客户 并 通信 的 套 接 字 。 


该 类 的 构造 函数 中 对 这 三 个 属性 进行 了 初始 化 。 








private String username; 
private byte priority; 
private Socket socket; 


public ConcurrentCommand(Socket socket, String[] command) { 


super(command) ; 

username=command[ 1]; 
priority=Byte.parseByte(command[2]); 
this.socket=socket; 





该 类 的 主要 功能 位 于 抽象 方法 execute() 和 run() 方 法 中 。 其 中 ， 
每 个 具体 命令 都 通过 实现 execute( ) 方 法 计算 和 返回 查询 的 结 

果 。run() 方 法 调用 execute( ) 方 法 ， 将 结果 存储 在 缓存 ， 写 入 套 
接 字 中 ， 并 且 关 闭 在 通信 中 使 用 的 所 有 资源 ， 代 码 如 下 所 示 : 








@Override 
public abstract String execute(); 


@Override 
public void run() { 


String message="Running a Task: Username: "+username+"; 
Priority: "+priority; 
Logger.sendMessage(message) ; 
String ret=execute(); 
ParallelCache cache = ConcurrentServer.getCache(); 
if (isCacheable()) { 
cache. put(String.join(";",command), ret); 


} 


try (PrintWriter out = new PrintWriter(socket.getOutputStream(), 
true);) { 


02. 


System.out .println(ret); 


} catch (IOException e) { 
e.printStackTrace(); 
} 
System.out.println(ret); 
} 





最 后 ，compareTo() 方 法 使 用 其 优先 级 属性 确定 任务 执行 的 顺 
序 。PriorityBlockingQueue 类 将 使 用 该 方法 对 任务 进行 排序 ， 
这 样 具有 较 高 优先 级 的 任务 将 优先 执行 。 请 注意 ， 

当 getpriority() 方 法 返回 一 个 较 低 的 值 时 ， 该 任务 具有 较 高 的 优 
TER e ee An a 回 1， 则 该 任务 的 优先 级 
高 于 使 用 该 方法 返回 2 的 任务 的 优先 级 。 








@Override 
public int compareTo(ConcurrentCommand o) { 


return Byte.compare(o.getPriority(), this.getPriority()); 
} 


具体 的 命令 


我 们 已 经 在 实现 不 同 的 命令 类 时 做 了 稍 许 改动 ， 而 且 还 增加 了 一 
由 ConcurrentCancel1Command 类 实现 的 新 类 。 这 些 类 的 主要 逻辑 
都 包含 在 execute() 方 法 中 ， 该 方法 计算 查询 的 响应 并 且 将 其 作为 
字符 串 返 回 














Conclinrent Cancel Commands) Silexecute (Te 7. 
ConcurrentServer 类 的 cancelTasks() 方 法 。 该 方法 将 停止 执行 
与 参数 中 指定 用 户 相关 的 所 有 待 处 理 任务 。 


@Override 
public String execute() { 
ConcurrentServer.cancelTasks(getUsername()); 


String message = "Tasks of user "+getUsername()+ 
" has been cancelled."; 

Logger.sendMessage(message) ; 

return message; 


} 





ConcurrentReportCommand 类 的 execute( ) 方 法 使 用 WDIDAO 类 的 
query() 方 法 获取 用 户 请 求 的 数据 。 在 第 3 章 中 ， 你 可 以 找到 该 方 
apace 这 里 实现 过 程 基 本 一 样 。 唯 一 的 区 别 在 于 命令 数组 索 

引 ， 0 下 所 示 : 








@Override 
public String execute() { 


WDIDAO dao=WDIDAO. getDAO() ; 


if (command.length==5) { 
return dao.query(command[3], command[4]); 
} else if (command.length==6) { 
try { 
return dao.query(command[3], command[4], 
Short. parseShort(command[5])); 
} catch (NumberFormatException e) { 
return "ERROR;Bad Command"; 


} 
} else { 

return "ERROR;Bad Command"; 
} 





ConcurrentQueryCommand 类 的 execute() 方 法 使 用 NMDIDAO 类 的 
report() 方 法 获取 数据 。 在 第 3 章 中 ， Do o mes 
里 的 实现 过 程 几 乎 相同 ， 唯 一 的 区 别 在 于 命令 
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@Override 
public String execute() { 


WDIDAO dao=WDIDAO .getDAO( ) ; 
return dao.report(command[3]); 


} 





ConcurrentStatusCommand 类 在 其 构造 函数 中 有 一 个 额外 参 

数 : Executor 对 象 ， 该 对 象 将 执行 这 些 命 令 。 这 些 命令 使 用 该 对 
象 获取 有 关 执 行 器 的 信息 ， 并 且 将 其 作为 啊 应 发 送 给 用 户 。 这 一 3 
现 与 第 3 章 基 本 相同 。 我 们 使 用 同样 的 方法 获取 Executor 对 象 的 状 
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ConcurrentSstopCommand 类 和 ConcurrentErrorCommand 类 也 与 





第 3 章 相 同 ， 因 此 不 再 对 其 源 代 码 进 行 说 明 。 
4.2.3 ”服务 器 部 件 


服务 器 接收 来 目 所 有 客户 端的 查询 ， 创 建 执行 这 些 碍 询 的 命令 类 并 且 将 
其 发 送 给 执行 器 。 服 务 器 部 件 由 如 下 两 个 类 实现 。 


e ConcurrentServer 类 : 该 类 包含 服务 器 的 main() 方 法 以 及 额外 用 
于 撤销 任务 和 结束 系统 执行 的 方法 。 
e RequestTask#: 该 类 创建 命令 并 且 将 其 发 送 给 执行 器 。 


与 第 3 章 中 的 例子 相 比 ， 最 主要 的 区 别 在 于 RequestTask 的 角色 。 

在 SimpleServer 例 子 中 ，ConcurrentServer 类 为 每 个 查询 创建 一 
个 RequestTask 对 象 ， 并 且 将 其 发 送 给 执行 器 。 在 本 例 中 ， 只 有 一 个 将 
作为 线程 执行 的 RequestTask 的 实例 。 当 ConcurrentServer 收 到 一 个 
连接 ， 它 将 与 客户 端 通信 所 需 的 套 接 字 存放 在 待 连接 列表 

中 。RequestTask 线 程 恋 取 该 套 接 字 ， 处 理 客 户 端 发 送 的 数据 ， 创 建 相 
应 的 命令 并 且 将 其 发 送 给 执行 器 。 


这 样 更 改 的 主要 原因 是 为 了 只 在 任务 中 留 下 执行 器 要 执行 的 查询 代码 ， 
而 将 预 处 理 代 码 放 在 执行 器 之 外 。 




















01. ConcurrentServer 类 
ConcurrentServer 类 需要 一 些 内 部 属性 才能 更 好 地 工作 。 


一 个 ParallelCache 实 例 ， 用 于 调用 绥 存 系统 。 

一 个 ServerSsocket 实 例 ， 用 于 从 客户 端 获 取 连 接 。 
一 个 布尔 值 ， 用 于 指明 该 类 何 时 要 停止 执行 。 

一 个 LinkedBlockingQueue 实 例 ， 用 于 存储 那些 同 服 务 器 发 
送 消 息 的 客户 端的 套 接 字 。 这 些 套 接 字 将 由 RequestTask 类 处 
理 。 





一 个 ConcurrentHashMap， 用 于 存放 执行 句 执 行 的 每 个 任务 
所 关联 的 Future 对 象 。 它 的 键 是 发 送 查 询 的 用 户 名 ， 而 其 值 
为 另 一 个 Map， 该 Map 的 键 是 一 个 ConcurrenCommand 对 象 ， 它 
的 值 是 与 任务 相关 联 的 Future 实 例 。 使 用 这 些 Future 实 例 撤 
销 任 务 的 执行 。 

。 一 个 RequestTask 实 例 ， 用 于 创建 命令 并 且 将 它们 发 送 给 执行 


s 
。 一 个 Thread 对 象 ， 用 于 执行 RequestTask 对 象 。 


这 部 分 的 代码 如 下 。 


|-| 


public class ConcurrentServer { 
private static ParallelCache cache; 
private static volatile boolean stopped=false; 
private static LinkedBlockingQueue<Socket> pendingConnections; 


private static ConcurrentMap<String, ConcurrentMap 
<ConcurrentCommand, ServerTask<?>>> 
taskController; 

private static Thread requestThread; 

private static RequestTask task; 





该 类 的 main() 方 法 初始 化 这 些 对 象 并 且 打 开 ServerSocket 实 例 监 
听 来 自 客 户 端的 连接 。 此 外 ， 它 创建 了 RequestTask 对 象 并 且 将 其 
作为 线程 执行 。 在 此 之 后 是 一 个 循环 ， 直 到 shutdown( ) 方 法 改变 
了 stopped 属 性 的 取 值 为 止 。 此 后 ，main() 方 法 等 待 Excecutor 对 
象 结 束 ， 它 要 调用 RequestTask 对 象 的 endTermination() 方 法 ， 
并 且 使 用 finishSserver() 方 法 关闭 Logger 系 统 和 RequestTask 对 
象 。 





public static void main(String[] args) { 


WDIDAO dao=WDIDAO. getDAO() ; 

cache=new ParallelCache(); 

Logger. initializeLog(); 

pendingConnections = new LinkedBlockingQueue<Socket>(); 

taskController = new ConcurrentHashMap<String, 
ConcurrentHashMap<Integer, Future<?>>>(); 

task=new RequestTask(pendingConnections, taskController) ; 

requestThread=new Thread(task) ; 

requestThread.start(); 


System.out.println("Initialization completed."); 


serverSocket= new ServerSocket (Constants .CONCURRENT_PORT); 
do { 
try { 
Socket clientSocket = serverSocket.accept(); 
pendingConnections.put(clientSocket) ; 
} catch (Exception e) { 


e.printStackTrace(); 


} 
} while (!stopped) ; 
finishServer(); 
System.out.println( "Shutting down cache"); 
cache. shutdown(); 
System.out.println( "Cache ok" + new Date()); 





关闭 服务 器 的 执行 器 包括 两 种 方法 。shutdown( ) 方 法 会 改变 
stopped 变 量 的 取 值 并 且 关 闭 serverSocket 实 

例 。finishserver() 方 法 用 于 停止 执行 器 ， 中 断 执 

行 RequestTask 对 象 的 线程 ， 并 且 关 闭 Logger 系 统 。 我 们 将 关闭 
服务 器 的 过 程 划分 为 两 部 分 ， 直 到 服务 器 的 最 后 一 条 指令 都 可 以 使 
用 Logger 系 统 。 


public static void shutdown() { 
stopped=true; 
try { 
serverSocket.close(); 
} catch (IOException e) { 
e.printStackTrace(); 
} 
} 


private static void finishServer() { 
System.out.println("Shutting down the server..."); 
task.shutdown(); 
System.out.println("Shutting down Request task"); 
requestThread.interrupt(); 
System.out.println( "Request task ok"); 
System.out.println( "Closing socket"); 
System.out.println( "Shutting down logger"); 
Logger.sendMessage("Shutting down the logger"); 
Logger. shutdown() ; 
System.out.println("Logger ok"); 
System.out.println("Main server thread ended"); 





该 服务 器 还 包含 了 撤销 用 户 关 联 任务 的 方法 。 正 如 前 面 提 到 
的 ，Server 类 使 用 一 个 髓 套 的 ConcurrentHashMap 存 储 所 有 与 用 
户 关 联 的 任务 。 首 先 ， 获 得 含有 用 户 所 有 任务 的 Map， 然 后 调 





用 Future 对 象 的 cancel() 方 法 处 理 那 些 任务 的 所 有 Future 对 象 。 
传递 true 值 作为 参数 ， 这 样 ， 如 果 执 行 器 正在 执行 一 个 来 自 该 用 户 
的 任务 ， 那 么 它 将 会 中 断 。 我 们 也 给 出 了 必要 的 代码 以 避免 撤 


44ConcurrentCancelCommand. 


public static void cancelTasks(String username) { 


ConcurrentMap<ConcurrentCommand, ServerTask<?>> userTasks = 
taskController.get(username) ; 
if (userTasks == null) { 
return; 


} 


int taskNumber = @; 


Iterator<ServerTask<?>> it = userTasks.values().iterator(); 
while(it.hasNext()) { 
ServerTask<?> task = it.next(); 
ConcurrentCommand command = task.getCommand() ; 
if(! (command instanceof ConcurrentCancelCommand) && 
task.cancel(true)) { 
taskNumber++; 
Logger.sendMessage("Task with code "+command.hashCode()+ 
"cancelled: "+ command.getClass() 
.getSimpleName()) ; 
it.remove(); 
} 
} 
String message=taskNumber+" tasks has been cancelled."; 
Logger.sendMessage(message) ; 


} 


最 后 我 们 还 给 出 了 finishTask() 方 法 ， 当 任务 正常 执行 结束 时 ， 
该 方法 从 ServerTask 对 象 的 航 套 Map 中 清除 与 该 任务 相关 的 
Future 对 象 。” 如 下 所 示 : 











public static void finishTask(String username, ConcurrentCommand 
command) { 


ConcurrentMap<ConcurrentCommand, ServerTask<?>> userTasks = 
taskController.get(username) ; 
userTasks.remove(command) ; 
String message = "Task with code "+command.hashCode()+ 
' has finished"; 
Logger.sendMessage(message) ; 


} 


02. RequestTask 类 


RequestTask 类 是 ConcurrentServer 类 与 EXxecutor 类 之 间 的 中 
介 ，ConcurrentServer 类 用 于 连接 客户 端 ，Executor 类 用 于 执行 
并 发 任务 。RequestTask 类 打开 与 客户 端 连接 的 套 接 字 ， 读 取 但 询 
数据 ， 创 建 适 当 的 命令 ， 并 且 将 命令 发 送 给 执行 器 。 
该 类 用 到 以 下 几 个 内 部 属性 。 

e LinkedBlockingQueue: ConcurrentServer 类 在 其 中 存储 

客户 端 套 接 字 。 
。 ServerExecutor: 将 命令 作为 并 发 任务 执行 。 
e ConcurrentHashMap: 存储 与 任务 相关 的 Future 对 象 。 


该 类 的 构造 函数 初始 化 了 上 述 所 有 对 象 。 





public class RequestTask implements Runnable { 
private LinkedBlockingQueue<Socket> pendingConnections; 
private ServerExecutor executor = new ServerExecutor(); 
private ConcurrentMap<String, ConcurrentMap<ConcurrentCommand, 
ServerTask<?>>> taskController; 
public RequestTask(LinkedBlockingQueue<Socket> 


pendingConnections, ConcurrentHashMap<String, 
ConcurrentHashMap<Integer, Future<?>>> 
taskController) { 
this.pendingConnections = pendingConnections; 
this.taskController = taskController; 


} 








run() 方 法 是 该 类 的 主要 方法 。 它 执行 循环 直到 该 线程 中 断 处 理 存 
放 在 pendingConnections 对 象 中 的 套 接 字 。 在 该 对 象 

中 ，ConcurrentServer 类 存储 了 与 不 同 客户 端 通信 所 用 的 套 接 
字 ， 并 且 这 些 客户 端 都 向 该 服务 器 发 送 了 一 个 查询 。 它 打开 套 接 
字 ， 读 取 数 据 并 且 创 建 相 应 的 命令 。 它 还 将 命令 发 送 给 执行 器 ， 并 
且 在 双重 ConcurrentHashMap 中 存储 Future 对 象 ， 将 该 对 象 与 任 
务 的 hashCode 以 及 发 送 查 询 的 用 户 相 关联 。 








public void run() { 


try { 
while (!Thread.currentThread().interrupted()) { 
try { 
Socket clientSocket = pendingConnections.take(); 
BufferedReader in = new BufferedReader(new 
InputStreamReader (clientSocket.getInputStream())); 
String line = in.readLine(); 


Logger.sendMessage(line) ; 
ConcurrentCommand command; 


ParallelCache cache = ConcurrentServer.getCache(); 
String ret = cache.get(line); 
if (ret == null) { 
String[ ] commandData = line.split(";"); 
System.out.println( "Command: ”+ commandData[@]); 
switch (commandData[@]) { 
case "q": 
System.out.println("Query"); 
command = new ConcurrentQueryCommand(clientSocket, 
commandData) ; 
break; 
case "r": 
System.out.println("Report") ; 
command = new ConcurrentReportCommand (clientSocket, 
commandData) ; 
break; 
case "Ss": 
System.out.println("Status”") ; 
command = new ConcurrentStatusCommand(executor, 
clientSocket, 
commandData) ; 
break; 
case "z": 
System.out.printin("Stop") ; 
command = new ConcurrentStopCommand(clientSocket, 
commandData) ; 
break; 
case "Cc": 
System.out.println("Cancel") ; 
command = new ConcurrentCancelCommand (clientSocket, 
commandData) ; 
break; 
default: 
System.out.println("Error”); 


command = new ConcurrentErrorCommand(clientSocket, 


commandData) ; 
break; 


} 


ServerTask<?> controller = (ServerTask<?>)executor 

. submit (command) ; 
storeContoller(command.getUsername(), controller, command) 

} else { 
PrintwWriter out = new PrintWriter (clientSocket 
.getOutputStream(), true); 

System.out.println(ret) ; 
clientSocket.close(); 


} 


} catch (IOException e) { 
e.printStackTrace(); 
} 


} 
} catch (InterruptedException e) { 


// 不 需要 执行 任何 操作 








} 
} 





storeController() 方 法 在 双重 ConcurrentHashMap 中 存储 
Future 对 象 。 


private void storeContoller(String userName, ServerTask<?> 
controller, ConcurrentCommand command) { 
taskController.computeIfAbsent(userName, k -> new 
ConcurrentHashMap<>()).put (command, 
controller) ;taskController.computeIfAbsent(userName, k -> new 
ConcurrentHashMap<>()).put(command, controller); 





} 


最 后 ， 给 出 了 两 个 用 于 管理 Executor 类 执行 的 方法 。 Fh a 
FAS ATAI shutdown () AA, 73 — “NAT SG 
束 。 请 记 住 ， 必 须 显 式 调用 shutdown () 万 法 或 者 shutdownNow() 
a 入 止 执行 器 的 执行 。 人 否则 ， 程 序 不 会 结束 。 请 看 下 面 的 代 








public void shutdown() { 


String message="Request Task: "+pendingConnections.size()+" 
pending connections."; 


Logger.sendMessage(message) ; 
executor. shutdown(); 


} 


public void terminate() { 
try { 
executor. awaitTermination(1, TimeUnit.DAYS) ; 
executor.writeStatistics(); 
} catch (InterruptedException e) { 
e.printStackTrace(); 
} 





4.2.4 客户 端 部 件 


现在 ， 该 是 测试 服务 器 的 时 候 了 。 在 本 例 中 ， 并 不 用 担心 执行 时 间 ， 测 
试 的 主要 目标 是 检查 新 功能 是 否 工作 正常 。 


将 客户 端 部 件 划分 成 下 述 两 个 类 。 


e The ConcurrentClient2&: 该 类 实现 了 服务 器 单独 的 一 个 客户 
端 。 该 类 的 每 个 实例 都 有 不 同 的 用 户 名 称 。 该 客户 端 创建 了 100 个 
查询 ， 其 中 90 个 为 Query 型 ，10 个 为 Report 型 。Query 型 的 查询 其 
优先 级 为 5， 而 Report 型 的 查询 优先 级 较 低 为 10。 

e MultipleConcurrentClient%: 该 类 以 并 行 方式 度量 了 多 个 并 
发 客户 端的 行为 。 我 们 使 用 了 1 到 5 个 并 发 客户 端 测试 服务 器 。 该 类 


还 测试 了 cance1 命 令 和 stop 命 令 。 


一 个 执行 器 执行 对 服务 器 的 并 发 请 求 ， 以 便 增 加 客户 端的 并 发 
去 级 。 


在 下 面 的 屏幕 截图 中 ， 可 以 看 到 任务 撤销 的 结果 。 


3 01:13:39 CET 2016: Fri Dec 23 01:13:34 CET 2016: Task with code 195713384cancelled: ConcurrentQueryCommand 

3 01:13:39 CET 2016: Fri Dec 23 61:13:34 CET 2016: Task with code 1547932103cancelled: ConcurrentReportCommand 
3 01:13:39 CET 2016: Fri Dec 23 01:13:34 CET 2016: Task with code 1917877449cancelled: ConcurrentQueryCommand 
3 61:13:39 CET 2016: Fri Dec 23 01:13:34 CET 2016: Task with code 158306644cancelled: ConcurrentQueryCommand 
3 01:13:39 CET 2016: Fri Dec 23 61:13:34 CET 2616: Task with code 336552833cancelled: ConcurrentQueryCommand 
3 01:13:39 CET 2016: Fri Dec 23 01:13:34 CET 2016: 5 tasks has been cancelled. 

3 01:13:39 CET 2016: Fri Dec 23 01:13:34 CET 2016: Tasks of user USER 2 has been cancelled. 


在 本 例 中 ， 用 户 USER_2 的 四 个 任务 已 被 撤销 。 











下 面 的 屏幕 截图 展示 了 每 个 用 户 的 任务 数量 和 执行 时 间 的 最 终 统计 信 
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4509 Fri Dec 23 00:46:00 CET 2016: Fri Dec 23 00:46:00 CET 2016: Task with code 938223162 has finished 
4510Fri Dec 23 00:46:00 CET 2016: Fri Dec 23 00:46:00 CET 2016: USER_2:Executed Tasks: 400. Execution Time: 10574 
4511 Fri Dec 23 00:46:00 CET 2016: Fri Dec 23 00:46:00 CET 2016: USER_3:Executed Tasks: 300. Execution Time: 7074 
4512Fri Dec 23 00:46:00 CET 2016: Fri Dec 23 06:46:00 CET 2016: USER_1:Executed Tasks: 500. Execution Time: 14454 
4513 Fri Dec 23 00:46:00 CET 2016: Fri Dec 23 00:46:00 CET 2016: admin:Executed Tasks: 1. Execution Time: 1 
4514Fri Dec 23 00:46:00 CET 2016: Fri Dec 23 00:46:00 CET 2016: USER_4:Executed Tasks: 200. Execution Time: 5381 
4515Fri Dec 23 00:46:00 CET 2016: Fri Dec 23 00:46:00 CET 2016: USER_5S:Executed Tasks: 100. Execution Time: 2443 
4516 Fri Dec 23 00:46:00 CET 2016: Fri Dec 23 00:46:00 CET 2016: Shuttingdown the logger 


4.3 第 二 个 例子 : 执行 周期 性 任务 


在 前 面 含有 执行 器 的 例子 中 ， 各 任务 都 被 执行 一 次 ， 而 且 都 被 尽快 执 

行 。 执 行 器 框架 包括 了 其 他 一 些 执行 器 实现 ， 这 使 我 们 在 任务 的 执行 时 
间 上 有 了 更 多 的 灵活 性 。ScheduledThreadPoolExecutor 类 使 我 们 可 
以 周期 性 地 执行 任务 ， 或 者 经 过 某 一 延 时 后 执行 任务 。 


本 节 将 通过 实现 一 个 RSS 订 阅 程 序 ， 促 使 你 学 会 如 何 执行 周期 性 任务 。 
在 这 个 简单 的 例子 中 ， 需 要 定期 执行 同一 任务 (阅读 RSS 订 阅 上 的 新 
闻 ) 。 我 们 的 例子 有 如 下 几 个 特征 。 


。 在 文件 中 存储 RSS 源 。 我 们 从 一 些 重 要 的 报纸 〈 例 如 《纽约 时 报 》 
《每 日 新 闻 》《 卫 报 》 等 ) 上 选取 了 一 些 世 界 新 闻 。 

。 对 每 个 RSS 源 ， 我 们 辣 执 行 器 发送 一 个 Runnable 对 象 。 每 当 执 行 器 

运行 对 象 时 ， 它 会 解析 RSS 源 并 且 将 其 转换 成 一 个 侣 有 RSS 内 容 的 

CommonInformationItem 对 象 列 表 。 

我 们 使 用 生产 者 /消费 者 设计 模式 将 RSS 新 闻 写 入 磁盘。 生产 者 是 执 

行 器 的 任务 ， 它 们 将 每 个 CommonInformationItem 写 入 到 缓存 

中 。 绥 存 中 仅 存 储 新 条 目 。 消 费 者 是 一 个 独立 线程 ， 它 从 缓存 中 读 

取 新 闻 并 将 其 写 入 磁盘 。 


从 任务 执行 结束 到 下 一 次 执行 的 时 间 间 隔 是 1 分 钟 。 


我 们 还 实现 了 这 个 例子 的 高 级 版 本 ， 在 该 版 本 中 ， 一 个 任务 的 两 次 执行 
之 间 的 时 间 间 隔 是 可 变 的 。 


4.3.1 公共 部 件 


正如 前 面 提 过 的 ， 我 们 读 取 一 个 RSS 订 阅 并 将 其 转换 成 一 个 对 象 列 表 。 
为 了 解析 该 RSS 文 件 ， 将 其 视 为 一 个 XML 文件 ， 而 且 

在 RSSDataCapturer 类 中 实现 了 一 个 SAX (Simple API for XML HJ 
写 ) 解析 器 。 它 可 以 解析 该 文件 并 且 创 建 一 

个 CommonInformationItem 列 表 。 该 类 为 每 个 RSS 项 都 存储 了 下 述 信 
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e Title: RSS 项 的 标题 。 


Date: RSS 项 的 日 期 。 

Link: RSS 项 的 链接 。 

Description: RSS 项 的 文本 描述 。 

ID: RSS 项 的 ID。 如 果 该 项 并 不 含有 ID， 那 么 我 们 还 可 以 计算 其 
ID. 

。 Source: RSS 源 的 名 称 。 


由 于 使 用 生产 者 /消费 者 设计 模式 将 新 闻 存 入 磁盘 ， 因 此 需要 用 组 存储 
存 新 闻 ， 而 且 在 本 例 中 还 需要 一 个 Consumer 类 ， 该 类 可 从 缓存 中 读 取 
新 闻 并 将 其 写 入 磁盘 。 


我 们 在 NewsBuffer 类 中 实现 了 缓存 ， 该 类 有 两 个 内 部 属性 。 


e LinkedBlockingQueue: RASA ERER 2a 
构 。 如 果 从 列表 中 获取 某 个 项 但 是 列表 为 空 ， 那 么 调用 方法 的 线程 
就 会 被 阻塞 ， 直 到 列表 中 有 元 素 为 止 。 我 们 使 用 这 种 吉 构 存储 
CommonInformationItems 。 

e ConcurrentHashMap: 这 是 HashMap 的 一 个 并 发 实现 。 它 用 来 存储 
之 前 在 绥 存 中 存放 的 各 新 闻 项 的 ID。 


我 们 将 只 插入 那些 此 前 并 未 插入 缓存 中 的 新 闻 。 














public class NewsBuffer { 
private LinkedBlockingQueue<CommonInformationItem> buffer; 
private ConcurrentHashMap<String, String> storedItems; 


public NewsBuffer() { 
buffer=new LinkedBlockingQueue<>() ; 
storedItems=new ConcurrentHashMap<String, String>(); 


} 


我 们 在 NewsBuffer 类 中 给 出 了 两 种 方法 。 其 中 一 种 方法 用 于 将 某 一 项 
存储 到 缓存 ， 并 预先 检查 该 项 此 前 是 否 已 经 插入 ; 男 一 种 方法 用 于 从 绥 
存 中 获取 下 一 项 。 使 用 compute() 方 法 将 元 素 插 

入 ConcurrentHashMap 。 该 方法 接收 一 个 lambda 表 达 式 作为 参数 ， 其 
中 含有 键 和 与 键 相关 联 的 实际 值 (如 果 该 键 没 有 相关 联 的 值 则 为 

null) 。 在 我 们 的 例子 中 ， 将 此 前 并 未 处 理 过 的 项 加 入 缓存 。 我 们 使 
用 add() 方 法 和 take( ) 方 法 插入 、 获 取 和 删除 队列 中 的 元 素 。 











public void add (CommonInformationItem item) { 
storedItems.compute(item.getId(), (id, oldSource) -> { 
if(oldSource == null) { 
buffer.add(item) ; 
return item.getSource(); 
} else { 
System.out.println("Item "+item.getId()+" has been processed 
before"); 
return oldSource; 
} 
}); 
} 


public CommonInformationItem get() throws InterruptedException { 
return buffer.take(); 


} 





绥 存 的 项 可 通过 NewsWriter 类 写 入 磁盘 ， 该 类 将 作为 一 个 独立 线程 执 
行 。 该 类 只 有 一 个 内 部 属性 ， 该 属性 指向 在 应 用 程序 中 使 用 的 


NewsBuffer 类 。 





public class NewsWriter implements Runnable { 
private NewsBuffer buffer; 
public NewsWriter(NewsBuffer buffer) { 
this.buffer=buffer ; 


} 





该 Runnable 对 象 的 run() 方 法 从 缓存 中 获取 CommonInformationItem 
实例 并 且 将 其 保存 到 磁盘 。 与 使 用 阻塞 型 方法 一 样 ， 如 有 果 该 缓存 为 空 ， 
则 该 线程 将 被 阻塞 ， 直 到 缓存 中 有 元 素 为 止 。 








public void run() { 
try { 
while (!Thread.currentThread().interrupted()) { 
CommonInformationItem item=buffer.get() ; 
Path path=Paths.get ("output\\"+item. getFileName()) ; 


try (BufferedWriter fileWriter = Files.newBufferedwriter 
(path, StandardOpenOption.CREATE)) { 
fileWriter.write(item.toString() ); 
} catch (IOException e) { 
e.printStackTrace(); 
} 
} 


} catch (InterruptedException e) { 
// 正常 执行 
} 
} 








4.3.2 ”基础 阅读 器 


该 基础 阅读 器 将 使 用 标准 的 ScheduledThreadPoo1Executor 类 执行 周 
期 性 任务 。 我 们 对 每 个 RSS 源 都 执行 一 个 任务 ， 而 且 从 任务 执行 结束 到 
下 次 执行 开始 间隔 时 间 为 一 分 钟 。 这 些 并 发 任务 都 是 在 NewsTask 类 中 
实现 的 ， 该 类 有 三 个 内 部 属性 ， 用 于 存储 RSS 订 阅 的 名 称 、URL， 以 及 
用 于 存储 新 闻 的 NewsBuffer 类 。 


public class NewsTask implements Runnable { 
private String name; 
private String url; 
private NewsBuffer buffer; 


public NewsTask (String name, String url, NewsBuffer buffer) { 
this.name=name; 
this.url=url; 
this.buffer=buffer; 

} 





该 Runnab1le 对 象 的 run() 方 法 直接 解 机 RSS 订阅， 获取 一 
个 CommonItemInterface 实 例 列 表 ， 并 将 它们 存储 到 缓存 中 。 该 方法 
将 周期 性 执行 。 每 次 执行 时 ， 该 run() 方 法 都 将 从 开始 执行 到 结束 。 


@Override 

public void run() { 
System.out.println(name + " : Running. " + new Date()); 
RSSDataCapturer capturer = new RSSDataCapturer(name) ; 
List<CommonInformationItem> items=capturer.load(ur1) ; 


for (CommonInformationItem item: items) { 
buffer.add(item) ; 
} 
} 





在 本 例 中 ， 还 实现 了 另 一 个 线程 ， 以 完成 执行 器 和 任务 的 初始 化 ， 然 后 
等 待 执行 结束 。 我 们 已 将 这 个 类 命名 为 NewsSystem。 该 类 有 三 个 内 部 
属性 : 用 于 存储 含有 RSS 源 的 文件 路 径 、 用 于 存放 新 闻 的 缓存 、 以 及 一 


个 控制 其 执行 结束 的 CountDownLatch 对 象 。CountDownLatch 类 是 一 
种 同步 机 制 ， 允 许 存在 一 个 线程 等 待 菜 一 事件 。 第 11 章 将 详细 介绍 该 类 
的 用 途 。 我 们 有 如 下 代码 。 


public class NewsSystem implements Runnable { 
private String route; 
private ScheduledThreadPoolExecutor executor; 
private NewsBuffer buffer; 
private CountDownLatch latch=new CountDownLatch(1); 


public NewsSystem(String route) { 
this.route = route; 
executor = new ScheduledThreadPoolExecutor 
(Runtime. getRuntime().availableProcessors()); 
buffer=new NewsBuffer(); 


} 


在 run() 方 法 中 ， 我 们 读 取 了 所 有 的 RSS 源 ， 为 每 个 RSS 源 创建 了 一 
个 NewsTask 类 ， 并 且 将 它们 发 送 给 ScheduledThreadPool1 执 行 器 。 使 
用 Executors 类 的 newScheduledThreadPool() 方 法 创建 执行 器 ， 并 使 
用 scheduleAtFixedDelay() 方 法 将 任务 发 送 给 该 执行 器 ， 也 

将 NewsWriter 实 例 作 为 一 个 线程 启动 。run() 方 法 等 竺 通知 消 息 ， 在 
收 到 通知 后 采用 CountDownLatch 类 的 await( ) 方 法 结束 其 执行 ， 并 且 
结束 NewsWriter 任 务 和 ScheduledExecutor 的 执行 。 








@Override 
public void run() { 
Path file = Paths.get(route); 
NewsWriter newsWriter=new NewsWriter (buffer) ; 
Thread t=new Thread(newsWriter) ; 
t.start(); 


try (InputStream in = Files.newInputStream(file) ; 
BufferedReader reader = new BufferedReader (new 
InputStreamReader(in))) { 
String line = null; 
while ((line = reader.readLine()) != null) { 
String data[] = line.split(";"); 


NewsTask task = new NewsTask(data[@], data[1], buffer); 

System.out.println( "Task "+task.getName() ); 

executor.scheduleWithFixedDelay(task,®, 1, 
TimeUnit.MINUTES) ; 


} 
} catch (Exception e) { 


e.printStackTrace(); 
} 


synchronized (this) { 
try { 
latch.await(); 
} catch (InterruptedException e) { 
e.printStackTrace(); 
} 
} 


System.out.println("Shutting down the executor."); 
executor .shutdown(); 

t.interrupt(); 

System.out.println("The system has finished."); 


} 





我 们 还 实现 了 shutdown() 方 法 。 该 方法 将 告知 NewsSystem 类 必须 使 
用 CountDownLatch 类 的 countDown() 方 法 停止 其 执行 过 程 。 该 方法 将 
会 唤醒 run( ) 方 法 ， 这 样 就 可 以 关闭 正在 运行 NewsTask 对 象 的 执行 器 。 


public void shutdown() { 
latch.countDown(); 


} 





本 例 最 后 一 个 类 是 Main 类 ， 它 实现 了 该 例 中 的 main() 方 法 。 该 类 
将 NewsSystem 实 例 作 为 一 个 线程 启动 ， 等 待 10 分 钟 后 ， 通 知 线程 结 
执行 ， 进 而 结束 整个 系统 的 执行 ， 如 下 所 示 。 





public class Main { 


public static void main(String[] args) { 





// 创建 system 并 将 其 作为 一 个 线程 执行 


NewsSystem system=new NewsSystem("data\\sources.txt"); 
Thread t=new Thread(system) ; 
t.start(); 


// 等 待 16 分 钟 


try { 
TimeUnit .MINUTES.sleep(18) ; 

} catch (InterruptedException e) { 
e.printStackTrace(); 


} 


// 通知 system 终 止 


system.shutdown(); 





执行 本 例 时 ， 可 以 看 到 各 个 任务 如 何以 周期 性 方式 执行 ， 以 及 新 闻 项 如 
何 写 入 磁盘 ， 如 下 图 所 示 。 


|rask The New York Times 

Task Daily News 

Task Washington Post 

Task Los Angeles Times 

Task Wall Street Journal 

Task Denver Post 

Task New York Post 

Task Newsday 

Task BBC 

Task Financial Times 

The New York Times: Running. Fri Dec 23 12:05:38 CET 2016 
Daily News: Running. Fri Dec 23 12:05:38 CET 2016 
Washington Post: Running. Fri Dec 23 12:05:38 CET 2016 
Los Angeles Times: Running. Fri Dec 23 12:05:38 CET 2016 
Wall Street Journal: Running. Fri Dec 23 12:05:39 CET 2016 
Denver Post: Running. Fri Dec 23 12:05:39 CET 2016 

Item https: //www.washingtonpost.com/world/the_americas/explosic 
New York Post: Running. Fri Dec 23 12:05:39 CET 2016 
Newsday: Running. Fri Dec 23 12:05:39 CET 2016 

BBC: Running. Fri Dec 23 12:05:39 CET 2016 

Financial Times: Running. Fri Dec 23 12:05:39 CET 2016 





4.3.3 ”高 级 阅读 器 


基础 新 闻 阅 读 器 是 一 个 使 用 ScheduledThreadPoo1LExecutor 类 的 例 
子 ， 不 过 我 们 可 以 更 深入 。 与 使 用 ThreadPoolExecutor 的 情形 一 样 ， 
可 以 实现 自己 的 ScheduledThreadPoolExecutor 获 得 特定 行为 。 在 我 
们 的 例子 中 ， 和 希望 周期 性 任务 的 延迟 时 间 随 着 一 天 中 的 时 刻 而 改变 。 在 
这 部 分 ， 你 将 学 到 如 何 实现 这 一 行为 。 


第 一 步 是 实现 一 个 类 ， 用 于 获取 一 个 周期 性 任务 两 次 执行 之 间 的 时 延 。 
我 们 将 其 命名 为 Timer 类 。 该 类 只 有 一 个 名 为 getPeriod() 的 静态 方 

法 ， 该 方法 返回 的 是 本 次 执行 结束 到 下 次 执行 开始 之 间 的 毫秒 数 。 下 面 
是 实现 过 程 ， 不 过 也 可 以 自己 编写 代码 。 








public class Timer { 
public static long getPeriod() { 
Calendar calendar = Calendar.getInstance() ; 
int hour = calendar.get(Calendar.HOUR_OF_DAY); 


if ((hour >= 6) && (hour <= 8)) { 
return TimeUnit .MILLISECONDS.convert(1, TimeUnit.MINUTES) ; 
} 


if ((hour >= 13) && (hour <= 14)) { 
return TimeUnit .MILLISECONDS.convert(1, TimeUnit.MINUTES) ; 
} 


if ((hour >= 20) && (hour <= 22)) { 
return TimeUnit .MILLISECONDS.convert(1, TimeUnit.MINUTES); 


} 
return TimeUnit.MILLISECONDS.convert(2, TimeUnit.MINUTES); 








接 下 来 ， 还 要 实现 执行 器 的 内 部 任务 。 癌 执行 器 发 送 一 个 Runnable 对 
象 时 ， 从 外 部 来 讲 ， 可 以 将 该 对 象 视 为 并 发 任务 ， 但 是 执行 器 会 将 该 对 
象 转换 成 男 一 个 任务 ， 即 FutureTask 类 的 一 个 实例 ， 转 换 方法 包括 用 
于 执行 任务 的 run( ) 方 法 和 用 于 管理 任务 执行 的 Future 接 口中 的 方法 。 
为 了 实现 这 个 例子 ， 必 须 实现 一 个 类 用 以 扩展 FutureTask 类 ， 而 且 因 
为 将 在 预定 的 执行 器 中 执行 这 些 任务 ， 必 须 实现 
RunnableScheduledFuture 接 口 。 该 接口 提供 了 getDelay() 方 法 ， 访 
方法 返回 了 距离 任务 下 一 次 执行 所 剩余 的 时 间 。 我 们 已 

在 ExecutorTask 类 中 实现 了 这 些 内 部 任务 ， 该 类 有 如 下 四 个 内 部 属 
性 。 


e 由 ScheduledThreadPoolExecutor 类 创建 的 初始 
RunnablescheduledFuture 内 部 任务 。 

© 执行 该 任务 的 预定 执行 器 。 

该 任务 下 一 次 执行 的 起 始 时 间 。 

RSS 订 阅 的 名 称 。 





代码 如 下 所 示 。 


public class ExecutorTask<V> extends FutureTask<V> implements 
RunnableScheduledFuture<V> 
private RunnableScheduledFuture<V> task; 


private NewsExecutor executor; 


private long startDate; 


private String name; 


public ExecutorTask(Runnable runnable, V result, 

RunnableScheduledFuture<V> task, 
NewsExecutor executor) { 

super(runnable, result); 

this.task = task; 

this.executor = executor; 

this .name=((NewsTask)runnable) .getName(); 

this.startDate=new Date().getTime(); 








我 们 在 该 类 中 重 载 或 者 实现 了 不 同 的 方法 。 第 一 个 是 getDelay() 方 
该 方法 在 给 定 的 时 间 单 位 内 返回 距离 任务 下 次 执行 的 剩 
R 间 。 





@Override 
public long getDelay(TimeUnit unit) { 
long delay; 
if (!isPeriodic()) { 
delay = task.getDelay(unit) ; 
} else { 
if (startDate == @) { 
delay = task.getDelay(unit); 
} else { 


Date now = new Date(); 
delay = startDate - now.getTime(); 
delay = unit.convert(delay, TimeUnit.MILLISECONDS) ; 


} 


} 


return delay; 


} 








接 下 来 是 用 于 对 比 两 个 任务 的 compareTo() 方 法 ， 主 要 考量 这 两 个 任务 
下 次 执行 的 起 始 时 间 。 


@Override 
public int compareTo(Delayed object) { 


return Long.compare(this.getStartDate(), 
((ExecutorTask<V>)object).getStartDate()); 





然后 ， 如 果 任 务 是 周期 性 的 ， 则 isPeriodic() 方 法 返回 true， 和 否则 返 
回 false。 


@Override 
public boolean isPeriodic() { 
return task.isPeriodic(); 


} 


最 后 ， 在 run() 方 法 中 实现 了 本 例 最 重要 的 部 分 。 首 先 ， 调 

用 FutureTask 类 的 runAndReset() 方 法 。 该 方法 执行 任务 并 且 重 置 其 

状态 ， 这 样 任 务 束 可 以 再 次 执行 。 然 后 ， 使 用 Timer 类 计算 下 次 执行 的 

起 始 时 间 。 最 后 ， 还 要 在 ScheduledThreadPoolExecutor 类 的 队列 中 

as 如 果 不 做 最 后 一 步 ， 那 么 任务 就 不 会 像 如 下 所 示 这 样 
次 执行 。 





@Override 
public void run() { 
if (isPeriodic() && (!executor.isShutdown())) { 
super. runAndReset(); 
Date now=new Date(); 


startDate=now. getTime()+Timer.getPeriod(); 
executor. getQueue().add(this) ; 
System.out.println("Start Date: "+new Date(startDate) ) ; 





一 旦 有 了 面 癌 执行 器 的 任务 后 ， 则 必须 实现 执行 器 。 我 们 实现 了 
NewsExecutor 类 ， 用 以 扩展 ScheduledThreadPoolExecutor 类 。 我 
们 重 载 了 『 了 decorateTask() 方 法 ， 有 了 该 方法 ， 束 可 以 蔡 换 预定 执行 器 
使 用 的 内 部 任务 。 默 认 情 况 下 ， 该 方法 返回 
RunnablescheduledFuture 接 口 的 默认 实现 ， 但 是 在 我 们 的 例子 中 ， 
它 将 返回 Executor 扩 展 类 的 一 个 实例 。 





public class NewsExecutor extends ScheduledThreadPoolExecutor { 


public NewsExecutor(int corePoolSize) { 
super (corePoolSize) ; 


} 


@Override 


protected <V> RunnableScheduledFuture<V> decorateTask(Runnable 
runnable, RunnableScheduledFuture<V> task) { 
ExecutorTask<V> myTask = new ExecutorTask<>(runnable, null, 
task, this); 


return myTask; 


} 





} 


为 了 实现 NewsSystem 的 其 他 版 本 ， 以 及 使 用 NewsExecutor 的 Main 
类 ， 我 们 实现 了 NewsAdvancedSystem 和 AdvancedMain。 


现在 ， 你 可 以 运行 高 级 新 闻 系 统 ， 碍 看 各 次 执行 之 间 延 迟 时 间 的 变化 。 








4.4 ARRIT a WE te E 


AH Fe J ThreadPoolExecutor2 fil 
ScheduledThreadPoo1Executor 类 ， 并 且 重 载 了 其 中 的 一 些 方法 。 但 
是 如 果 想 实现 更 多 特殊 行为 ， 还 可 以 重 载 更 多 方法 。 下 面 是 可 以 重 载 的 
一 些 方法 。 


e shutdown(): 必须 显 式 调用 该 方法 以 结束 执行 器 的 执行 ， 也 可 以 
重 载 该 方法 ， 加 入 一 些 代码 释放 执行 器 所 使 用 的 额外 资源 。 

e shutdownNow(): shutdown() 方 法 和 shutdownNow() 方 法 之 间 的 
区 别 在 于 shutdown() 方 法 要 等 待 执行 器 中 所 有 处 于 等 待 状态 的 任 
务 全 部 终结 。 

。 submit()、invokeall() 或 者 jnvokeany(): 可 以 调用 这 些 方法 
问 执 行 器 发 送 并 发 任务 。 如 采 需 要 在 将 任务 插入 到 执行 器 任务 队列 
之 前 或 之 后 进行 一 些 操作 ， 束 可 以 重 载 这 些 方法 。 请 注意 ， 在 任务 
进行 排队 之 前 或 之 后 添加 定制 操作 与 在 该 任务 执行 之 前 或 之 后 添加 
定制 操作 是 不 同 的 ， 这 些 操作 要 考虑 到 重 载 beforeExecute() 方 
法 和 afterExecute() 方 法 。 








在 新 闻 阅 读 器 例子 中 ， 我 们 使 用 schedulewithFixedDelay() 方 法 将 任 
务 发 送 给 执行 器 。 但 是 scheduledThreadPoolExecutor 类 还 有 其 他 一 
些 方法 可 用 于 执行 周期 性 任务 或 者 延迟 之 后 的 任务 。 





执行 一 次 。 

e scheduleAtFixedRate(): 访 方 法 按照 给 定 周 期 执行 一 个 周期 性 
任务 。 它 与 scheduleWithFixedDelay() 方 法 的 区 别 在 于 ， 对 于 后 
者 而 言 ， 两 次 执行 之 间 的 延迟 是 指 第 一 次 执行 结束 之 后 到 第 二 次 执 
行 之 前 的 时 间 ; 而 对 于 前 者 而 言 ， 两 次 执行 之 间 的 延迟 是 指 两 次 执 
行 起 始 之 间 的 时 间 。 





45 小结 


本 章 通 过 介绍 两 个 例子 探索 了 执行 器 的 高 级 特性 。 在 第 一 个 例子 中 ， 延 
用 了 第 3 章 中 客户 端 /服务 器 的 例子 。 通 过 扩展 ThreadPoolExecutor 类 
实现 了 自己 的 执行 器 ， 以 便 按照 优先 级 执行 任务 ， 并 有 量度 量 每 个 用 户 任 
务 的 执行 时 间 。 此 外 ， 还 引入 了 一 种 新 的 命令 支持 任务 的 撤销 。 


在 第 二 个 例子 中 ， 解 释 了 如 何 使 用 scheduledThreadPoolExecutor 类 
执行 周期 性 任务 。 实 现 了 两 个 版 本 的 新 闻 阅 读 器 。 第 一 个 版 本 展示 了 如 
何 使 用 ScheduledExecutorService 的 基本 功能 ， 和 第 二 个 版 本 展示 了 如 
何 履 六 scheduledExecutorService 类 的 行为 ， 例 如 改变 任务 两 次 执行 
之 间 的 延迟 时 间 。 








下 一 章 将 学 习 如 何 执行 返回 结果 的 Executor 任 务 。 如 果 扩 展 Thread 类 
或 者 实现 Runnable 接 口 ，run() 方 法 并 不 会 返回 任何 结果 ， 但 是 包含 了 
Callable 接 口 的 执行 器 框架 则 允许 实现 返回 结果 的 任务 。 


第 5 半 从 任务 获取 数 
tt: Callable## O SFuture#@ O 


在 第 3 章 和 第 4 间 中 ， 我 们 引入 了 执行 器 框架 来 改进 并 发 应 用 程序 的 性 
能 ， 并 且 展 示 了 如 何 实现 高 级 特性 以 使 该 框架 适应 你 的 需求 。 在 这 两 章 
中 ， 执 行 器 执行 的 所 有 任务 都 基于 Runnable 接 口 ， 而 其 run() 方 法 并 不 
返回 值 。 然 而 ， 执 行 器 框架 也 允许 我 们 执行 其 他 基于 Callable 接 口 和 
Future 接 口 返 回 值 的 任务 。Callable 是 一 种 函数 接口 ， 它 定义 了 
call() 方 法 。call() 方 法 可 以 抛 出 一 种 与 Runnable 接 口 不 同 的 校 验 异 
常 。Callable 接 口 的 处 理 结果 要 用 Future 接 口 来 打包 ， 而 Future 接 口 
则 描述 了 异步 计算 的 结果 。 本 章 将 讲述 下 述 主题 。 


。Callable 接 口 和 Future 接 口 简介 。 
。 第 一 个 例子 : 单词 最 佳 匹 配 算法 。 
。 第 二 个 例子 : 为 文档 集 创 建 倒 排 索引 。 








5.1 Callable 接 口 和 Future 接 口 简 介 


执行 器 框架 允许 编程 人 员 执 行 并 发 任务 而 无 须 创 建 和 管理 线程 。 你 可 以 
创建 任务 并 将 其 发 送 给 执行 器 ， 而 执行 堪 负 责 创建 和 管理 所 需 的 线程 。 


在 执行 器 中 ， 你 可 以 执行 两 种 任务 。 


。 基 于 Runnab1le 接 口 的 任务 : 这些 任务 实现 了 不 返回 任何 结果 的 
Pun( ) 方 法 。 

基于 Cal1lab1le 接 口 的 任务 : 这 些 任务 实现 了 返回 某 个 对 象 作为 结 
果 的 cal1() 接 口 。cal1() 方 法 返回 的 具体 类 型 由 Callable 接 口 的 
泛 型 参数 指定 。 为 了 获取 该 任务 返回 的 结果 ， 执 行 器 会 为 每 个 任务 
返回 一 个 Future 接 口 的 实现 。 


在 前 面 的 几 章 中 ， 你 了 解 了 如 何 创建 执行 项 ， 如 何 基 于 Runnable 接 口 
回执 行 器 发 送 任务 ， 以 及 如 何 个 性 化 定制 执行 器 以 适应 你 的 需求 。 本 
半 ， 你 将 学 习 如 何 基于 Callable 接 口 和 Future 接 口 来 与 任务 打交道 。 














5.1.1 Callable 接 口 


Callable 接 口 是 一 个 与 Runnable 接 口 非常 相似 的 接口 。Callable 接 口 
的 主要 特征 如 下 。 


。 它 是 一 个 通用 接口 。 它 有 一 个 简单 类 型 参数 ， 与 cal1() 方 法 的 返 
回 类 型 相对 应 。 

它 声 明了 cal1() 方 法 。 执 行 器 运行 任务 时 ， 该 方法 会 被 执行 器 执 
行 。 它 必须 返回 声明 中 指定 类 型 的 对 象 。 

cal1() 方 法 可 以 抛 出 任何 一 种 校 验 异 常 。 你 可 以 实现 自己 的 执行 
器 并 重 载 afterExecute( ) 方 法 来 处 理 这 些 异常 。 





5.1.2 ”Future 接口 


当 你 问 执 行 器 发 送 一 个 callable 任 务 时 ， 它 将 为 你 返回 一 个 Future 接 
口 的 实现 ， 这 允许 你 控制 任务 的 执行 和 任务 状态 ， 使 你 能 够 获取 结 
该 接口 的 主要 特征 如 下 。 





你 可 以 使 用 cancel() 方 法 来 撤销 任务 的 执行 。 该 方法 有 一 个 布尔 
型 参数 ， 用 于 指定 是 否 需要 在 任务 运行 期 间 中 断 任务 。 

你 可 以 校 验 任务 是 否 已 被 撤销 (采用 isCancelled() 方 法 ) 或 者 是 
否 已 经 结束 (采用 isDone( ) 方 法 ) 。 

你 可 以 使 用 get() 方 法 获取 任务 返回 的 值 。 该 方法 有 两 个 变 体 。 第 
一 个 变 体 不 带 有 参数 ， 当 任务 完成 执行 后 ， 该 变 体 将 返回 任务 所 返 
回 的 值 。 如 果 任 务 并 没有 完成 执行 ， 它 将 挂 起 执行 线程 直到 任务 执 
行 完 毕 。 第 二 个 变 体 带 有 两 个 参数 : 时 间 周 期 和 该 周期 的 
TimeUnit《〈 时 间 单 位 ) 。 该 变 体 与 第 一 个 变 体 的 区 别 在 于 将 线程 
等 待 的 时 间 周 期 作为 参数 来 传递 。 如 果 这 一 周期 结束 后 任务 仍 未 结 
束 执 行 ， 该 方法 就 会 扫 出 一 个 TimeoutException 异 和 常 。 








5.2 第 一 个 例子 : 单词 最 佳 匹 配 算法 


单词 最 佳 匹 配 算 法 的 主要 目标 是 找 出 与 作为 参数 的 字符 如 最 相似 的 单 
词 。 要 实现 一 个 这 样 的 算法 ， 需 要 做 如 下 准备 。 


。 单词 列表 : 在 我 们 的 例子 中 使 用 了 英国 高 级 疑难 词典 
CUKACD) ， 这 是 专门 为 填 字 游戏 社区 编纂 的 一 个 单词 列表 ， 有 
250 353 个 单词 和 习惯 用 语 。 

。 用 于 评估 两 个 单词 之 间 相 似 度 的 指标 : 我 们 使 用 Levenshtein 距 离 来 
度量 两 个 字符 序列 的 差异 。Levenshtein 距 离 是 指 ， 将 第 一 个 字符 串 
转换 成 第 二 个 字符 串 所 需 进 行 的 最 少 的 插入 、 删 除 或 蔡 换 操作 次 
数 。 你 可 以 查看 维基 百科 关于 “Levenshtein distance” 的 解释 ， 找 到 
对 这 一 指标 的 简要 描述 。 


在 我 们 的 例子 中 ， 你 可 以 实现 如 下 两 个 操作 。 


Benne teres et ee meee 
列表 。 

第 二 个 操作 是 使 用 Levenshtein 距 离 来 判定 我 们 的 字典 当中 是 人 否 存在 
茶 个 字符 序列 。 如 果 我 们 使 用 equals( ) 方 法 ， 速 度 将 会 更 快 。 但 
古 就 本 书 的 目的 而 言 ， 我 们 的 版 本 则 是 更 好 的 选择 。 


你 将 实现 上 述 操作 的 串 行 版 本 和 并 发 版 本 ， 以 便 验 证 在 本 例 中 使 用 并 发 
处 理 是 否 确实 有 帮助 。 


5.2.1 公共 类 























在 本 例 实现 的 所 有 任务 中 ， 都 将 用 到 下 面 三 个 基 类 。 


e WordsLoader 类 : 用 于 将 单词 列表 加 载 到 字符 串 对 象 列 表 中 。 

e。LevenshteinDistance 类 : 用 于 计算 两 个 字符 串 之 间 的 
Levenshtein 距 离 。 

e BestMatchingData 类 : 用 于 存放 最 佳 岂 配 算法 的 结果 。 它 存储 了 
单词 列表 以 及 这 些 单 词 与 输入 字符 串 之 间 的 距离 。 


UKACD 在 文件 中 是 按照 每 行 一 个 单词 的 形式 存放 的 ， 这 样 实现 1oad() 





静态 方法 的 NordsLoader 类 在 接收 到 单词 列表 文件 的 路 径 之 后 ， 就 会 返 
回 一 个 含有 250 353 个 单词 的 字符 串 对 象 列 表 。 


LevenshteinDistance 类 实现 了 calculate() 方 法 ， 该 方法 接收 两 个 
字符 串 对 象 作 为 参数 ， 并 且 返 回 一 个 int 值 来 表示 两 个 单词 之 间 的 距 
离 。 这 种 分 类 操作 的 代码 如 下 。 


public class LevenshteinDistance { 


public static int calculate (String string1, String string2) 
int[][] distances=new 
int[string1.length()+1][string2.length()+1]; 


for (int i=1; i<=string1.length();i++) { 
distances[i][@]=i; 


} 


for (int j=1; j<=string2.length(); j++) { 
distances[@][j]=33 


for(int i=1; i<=string1.length(); i++) { 
for (int j=1; j<=string2.length(); j++) { 
if (string1.charAt(i-1)==string2.charAt(j-1)) { 
distances[i][j]=distances[i-1][j-1]; 
} else { 
distances[i][j]=minimum(distances[i-1][j], 
distances[i][j-1],distances[i-1][j-1])+1; 


return distances[string1.length()][string2.length() ]; 
} 


private static int minimum(int i, int j, int k) { 
return Math.min(i,Math.min(j, k)); 
} 
} 





BestMatchingData 类 只 有 两 个 属性 : 一 个 用 于 存储 单词 列表 的 字符 串 
对 象 列表 ， 以 及 一 个 名 为 distance 的 整 型 属性 ， 该 属性 存放 了 这 些 单 
词 与 输入 字符 串 之 间 的 距离 。 


5.2.2 ”最 佳 匹 配 算法 : 串 行 版 本 


首先 ， 我 们 将 实现 最 佳 匹配 算法 的 串 行 厂 本 。 我 们 将 使 用 该 版 本 作为 并 

发 版 本 的 起 点 ， 然 后 将 比较 两 个 版 本 的 执行 时 间 ， 以 此 来 验证 并 发 处 理 

是 否 可 以 帮助 我 们 获得 更 好 的 性 能 。 

我 们 在 下 面 两 个 类 中 实现 了 最 佳 匹 配 算法 的 串 行 版 本 。 

。BestMatchingSerialCalculation 类 ， 用 于 计算 与 输入 字符 串 最 
相似 的 单词 的 列表 。 

。BestMatchingSerialMain 类 ， 其 中 包含 main() 方 法 ， 它 用 于 执 
行 算法 、 测 量 执行 时 间 并 且 在 控制 台 显 示 结 果 。 


让 我 们 分 析 一 下 以 上 两 个 类 的 源 代码 。 





01. BestMatchingSerialCalculation 类 


该 类 只 有 一 个 名 为 getBestMatchingNords() 的 方法 ， 该 方法 接收 
两 个 参数 : 一 个 作为 参照 的 有 序 字符 串 ， 以 及 含有 字典 中 所 有 单词 
的 字符 串 对 象 列 表 。 该 方法 返回 一 个 BestMatchingData 对 象 ， 其 
中 含有 算法 执行 结果 。 





public class BestMatchingSerialCalculation { 


public static BestMatchingData getBestMatchingWords (String 


word, List<String> dictionary) { 
List<String> results=new ArrayList<String>(); 
int minDistance=Integer .MAX_VALUE ; 
int distance; 








在 内 部 变量 完成 初始 化 之 后 ， 算 法 处 理 字 典 中 的 所 有 单词 ， 计 算 这 
些 单词 与 参照 字符 串 之 间 的 Levenshtein 距 离 。 如 果 针 对 一 个 单词 计 
算得 到 的 距离 比 实际 最 小 距离 更 小 ， 那 么 我 们 将 清空 结果 列表 并 且 
将 该 单词 存放 在 列表 中 。 如 果 针 对 一 个 单词 计算 得 到 的 距离 与 实际 
最 小 距离 相等 ， 那 么 将 该 单词 添加 到 结果 列表 中 。 














for (String str: dictionary) { 
distance=LevenshteinDistance.calculate(word, str); 
if (distance<minDistance) { 
results.clear(); 


minDistance=distance; 
results.add(str); 

} else if (distance==minDistance) { 
results.add(str); 


} 
} 





最 后 ， 创 建 BestMatchingData 对 象 来 返回 算法 结果 。 


BestMatchingData result=new BestMatchingData() ; 
result.setwWords(results); 
result.setDistance(minDistance) ; 

return result; 





02. BestMachingSerialMain2 


该 类 是 本 例 的 主 类 。 它 加 载 UKACD 文 件 ， 

用 getBestMatchingwords () 方 法 (该 方法 以 接收 到 的 字符 串 作 为 
参数 ) ， 然 后 在 控制 台 显 示 结 果 以 及 算法 执行 时 间 。 可 参看 如 下 代 
码 。 





public class BestMatchingSerialMain { 


public static void main(String[] args) { 


Date startTime, endTime; 
List<String> dictionary=WordsLoader.load("data/UK Advanced 
Cryptics Dictionary.txt"); 


System.out.println( "Dictionary Size: "+dictionary.size()); 


startTime=new Date(); 

BestMatchingData result= BestMatchingSerialCalculation 
.getBestMatchingWords 
(args[@], dictionary); 

List<String> results=result.getWords(); 

endTime=new Date(); 

System.out.println( "Word: "+args[@]); 

System.out.println( "Minimum distance: " +result.getDistance()); 

System.out.println( "List of best matching words: " 

+results.size()); 
results. forEach(System.out::println) ; 


System.out.println("Execution Time: "+(endTime.getTime() - 
startTime.getTime())); 





在 此 ， 我 们 使 用 Java 8 语言 提供 的 一 种 名 叫 方法 引用 (method 
reference) 的 新 构造 ， 以 及 用 于 输出 结果 的 新 方法 
List.forEach()。forEach() 方 法 是 一 种 末端 操作 ， 对 所 有 元 系 
会 有 次 生效 应 。 


5.2.3 ”最 佳 匹配 算法 : 第 一 个 并 发 版 本 


我 们 实现 了 两 个 并 发 版 本 的 最 佳 匹配 算法 。 第 一 个 版 本 基于 Cal1lable 
接口 ， 以 及 在 AbstractExecutorService 接 口中 定义 的 submit() 方 
法 : 


我 们 采用 下 面 三 个 类 来 实现 这 一 版 本 的 算法 。 


。BestMatchingBasicTask 类 : 该 类 执行 那些 实现 callable 接 口 并 
且 将 在 执行 器 中 执行 的 任务 。 

。BestMatchingBasicConcurrentCalculation 类 : 该 类 创建 了 执 
行 占 和 必要 的 任务 ， 并 且 将 任务 发 送 给 执行 右 。 

。BestMatchingConcurrentMain 类 : 该 类 实现 了 main() 方 法 ， 执 
行 算法 并 且 在 控制 台 显 示 结 果 。 


让 我 们 看 看 这 些 类 的 源 代码 。 
01. BestMatchingBasicTask2 


正如 前 面 提 到 的 ， 该 类 将 实现 获取 最 佳 匹 配 单 词 列 表 的 任务 。 访 任 
务 将 实现 采用 BestMatchingData 类 参数 化 的 Callable 接 口 。 这 意 
味 着 该 类 将 实现 call( ) 方 法 ， 而 该 方法 将 返回 一 

个 BestMatchingData 对 象 。 


每 个 任务 处 理 一 部 分 字典 ， 并 且 返 回 这 一 部 分 字典 获得 的 结果 。 我 
们 用 到 了 如 下 四 个 内 部 属性 。 


。 任务 要 分 析 的 这 一 部 分 字典 的 起 始 位 置 “包含 ) 。 





。 任务 要 分 析 的 这 一 部 分 字典 的 结束 位 置 “ 不 包含 ) 。 
。 以 字符 串 对 象 列表 形式 表示 的 字典 。 
。 参照 输入 字符 串 。 


其 化 码 如 -下 


public class BestMatchingBasicTask implements Callable 
<BestMatchingData > { 


private int startIndex; 

private int endIndex; 

private List < String > dictionary; 
private String word; 


public BestMatchingBasicTask(int startIndex, int endIndex, 
List < String > dictionary, String word) { 
this.startIndex = startIndex; 
this.endIndex = endIndex; 
this.dictionary = dictionary; 
this.word = word; 





call() 方 法 处 理 startIndex 和 endIndex 属 性 值 之 间 的 所 有 单词 ， 
并 且 计 算 这 些 单词 与 输入 字符 串 之 间 的 Levenshtein 距 离 。 该 方法 仅 
返回 与 输入 字符 串 最 接近 的 单词 。 如 果 在 此 过 程 中 它 找到 了 比 前 一 
个 单词 更 加 接近 的 单词 ， 将 清空 结果 列表 并 且 将 新 单词 加 入 到 该 列 
表 中 。 如 果 找 到 一 个 与 当前 查找 结果 距离 相同 的 单词 ， 那 么 就 将 该 
单词 加 入 到 结果 列表 中 ， 如 下 所 示 。 














@Override 
public BestMatchingData call() throws Exception { 
List<String> results=new ArrayList<String>(); 
int minDistance=Integer .MAX_VALUE; 
int distance; 
for (int i=startIndex; i<endIndex; i++) { 
distance = LevenshteinDistance.calculate(word,dictionary.get(i) ) 


if (distance<minDistance) { 
results.clear(); 
minDistance=distance; 
results.add(dictionary.get(i)); 
else if (distance==minDistance) { 
results.add(dictionary.get(i)); 





02. 


最 后 ， 我 们 创建 一 个 BestMatchingData 对 象 并 且 返 回 该 对 象 ， 该 
对 象 中 含有 至 找到 的 单词 列表 以 及 这 些 单 词 与 输入 字符 串 之 间 的 距 


Â 


BestMatchingData result=new BestMatchingData(); 
result.setWords(results); 
result.setDistance(minDistance); 


return result; 





基于 Runnable 接 口 的 任务 之 间 的 主要 差别 在 于 ， 方 法 中 最 后 一 行 
的 返回 语句 。run() 方 法 并 不 返回 值 ， 因 此 那些 任务 都 无 法 返回 
值 。 而 cal1() 方 法 可 返回 一 个 对 象 〈 该 对 象 的 类 在 其 实现 语句 中 
定义 )， 因 而 这 种 类 型 的 任务 可 以 返回 结果 。 








BestMatchingBasicConcurrentCalculation 类 


该 类 负责 为 处 理 整 个 词典 创建 必需 的 任务 、 执 行 这 些 任务 的 执行 
器 ， 并 且 在 执行 器 中 控制 这 些 任务 的 执行 。 


该 类 只 有 一 个 getBestMatchingWords() 方 法 ， 且 该 方法 有 两 个 输 
入 参数 : 有 完整 单词 列表 的 字典 和 参照 字符 串 。 该 方法 返回 一 个 含 
有 算法 执行 结果 的 BestMatchingData 对 象 。 首 先 ， 我 们 创建 并 初 
始 化 该 执行 器 。 我 们 将 机 器 的 核 数 作为 在 此 使 用 的 最 大 线程 数 。 看 
一 看 下 面 这 个 代码 块 。 


public class BestMatchingBasicConcurrentCalculation { 
public static BestMatchingData getBestMatchingWords (String 


word, List<String> dictionary) throws InterruptedException, 
ExecutionException { 


int numCores = Runtime.getRuntime().availableProcessors(); 
ThreadPoolExecutor executor = (ThreadPoolExecutor ) 
Executors.newFixedThreadPool(numCores) ; 





然后 ， 我 们 计算 每 个 任务 要 处 理 的 那 部 分 字典 的 规模 ， 并 且 创 建 一 
个 Future 对 象 列 表 来 存储 这 些 任务 的 结果 。 当 你 将 一 个 基于 
Callable 接 口 的 任务 发 送 给 执行 器 时 ， 将 得 到 Future 接 口 的 一 个 


实现 。 你 可 以 使 用 该 对 象 进行 如 下 操作 。 

© 了 解 任务 是 否 已 经 执行 。 

。 获取 任务 执行 的 结果 (call() 方 法 返回 的 对 象 〉。 
。 撤销 任务 的 执行 。 

其 代码 如 下 : 





int size = dictionary.size(); 
int step = size / numCores; 


int startIndex, endIndex; 
List<Future<BestMatchingData>> results = new ArrayList<>(); 





然后 ， 我 们 创建 这 些 任务 ， 使 用 submit() 方 法 将 其 发 送 给 执行 
器 ， 并 且 将 该 方法 返回 的 Future 对 象 添 加 到 Future 对 象 列 

表 。submit() 方 法 会 立即 返回 ， 它 并 不 会 一 直 等 待 任务 执行 。 我 
们 有 如 下 代码 。 





for (int i = @; i < numCores; i++) { 
startIndex = i * step; 
if (i == numCores - 1) { 
endIndex = dictionary.size(); 
} else { 
endIndex = (i + 1) * step; 


BestMatchingBasicTask task = new BestMatchingBasicTask(startIndex, 

endIndex, dictionary, word); 
Future<BestMatchingData> future = executor.submit (task) ; 
results.add(future) ; 





我 们 把 任务 发 送 给 执行 器 后 ， 可 以 调用 执行 器 的 shutdown( ) 方 法 
来 结束 其 执行 ， 并 且 对 Future 对 象 列表 执行 达 代 操作 以 获得 每 个 
任务 的 执行 结果 。 我 们 使 用 不 各 任何 参数 的 get( ) 方 法 。 如 果 任 务 
执行 结束 ， 则 该 方法 返回 由 cal1() 方 法 返回 的 对 象 。 如 果 任 务 尚 
未 结束 ， 该 方法 会 通过 当前 线程 将 调用 线程 置 为 休眠 状态 ， 直 到 任 
务 执行 结束 并 且 可 获得 结果 为 止 。 


我 们 将 任务 的 结果 组 合成 一 个 结果 列表 ， 这 样 就 可 以 仅 返 回 与 参照 
字符 串 距离 最 近 的 单词 的 列表 了 ， 如 下 所 示 : 





executor .shutdown( ) ; 

List<String> words=new ArrayList<String>(); 

int minDistance=Integer .MAX_VALUE ; 

for (Future<BestMatchingData> future: results) { 
BestMatchingData data=future.get() ; 

if (data.getDistance()<minDistance) { 

words.clear(); 

minDistance=data.getDistance(); 

words.addAll(data.getwWords()); 

else if (data.getDistance()==minDistance) { 

words.addAll(data.getwords()); 


we 





最 后 ， 回 一 个 BestMatchingData 对 象 ， 其 中 含有 算 
法 执行 结 


BestMatchingData result=new BestMatchingData(); 
result.setDistance(minDistance) ; 
result.setWords (words); 


return result; 





0 BestMatchingConcurrentMain 类 和 前 面 介 绍 的 
BestMatchingSerialMain 类 非常 相似 。 唯 一 的 差别 是 所 用 的 
类 不 同 ( 使 用 BestMatchingBasicConcurrentCalculation 
类 代替 BestMatchingSerialCalculation) ， 所 以 此 处 没有 
给 出 其 源码 。 请 注意 ， 当 并 发 任务 工作 于 各 个 独立 的 数据 片 之 
上 时 ， 我 们 既 没 有 采用 线程 安全 的 数据 结构 ， 也 没有 使 用 同步 
ny 而 是 当 并 发 任务 执行 完毕 后 以 顺序 方式 来 合并 最 终结 


5.2.4 最 佳 匹配 算法 : 第 二 个 并 发 版 本 


我 们 使 

用 AbstractExecutorService (在 ThreadPoolExecutorClass 中 实 

HL) 的 invokeAlL1() 方 法 实现 了 最 佳 匹配 算法 的 第 二 个 版 本 。 在 前 一 个 
A OE 该 方法 接收 一 个 Callable 对 象 作为 
参数 ， 并 返回 一 个 Future 对 象 。invokeAl11() 方 法 接收 一 个 CalLable 


对 象 列表 作为 参数 ， 并 且 返 回 一 个 Future 对 象 列表 。 其 中 第 

个 Future 对 象 和 第 一 个 callable 对 象 相关 联 ， 以 此 类 推 。 这 两 个 方法 

之 间 还 有 另 一 个 重要 区 别 。 尽 管 submit() 方 法 可 立即 返回 ， 但 

是 invokeAl1() 方 法 仅 当 所 有 Cal1lable 任 务 都 终止 执行 时 才 返 回 。 这 
人 :调用 了 isDone() 方 法 ， 那 么 所 有 返回 的 Future 对 象 都 会 
返回 true。 


要 实现 该 版 本 的 程序 ， 我 们 使 用 了 在 前 面 例 子 中 实现 的 
BestMatchingBasicTask 类 ， 并 且 实 现 了 
BestMatchingAdvancedConcurrentCalculation 类 。 该 类 

与 BestMatchingBasicConcurrentTask 类 的 区 别 在 于 任务 的 创建 和 对 
结果 的 处 理 上 。 在 任务 创建 方面 ， 现 在 我 们 创建 一 个 列表 并 且 用 它 存放 
我 们 要 执行 的 任务 。 


for (int i = @; i < numCores; i++) { 
startIndex = i * step; 
if (i == numCores - 1) { 
endIndex = dictionary.size(); 
} else { 


endIndex = (i + 1) * step; 


BestMatchingBasicTask task = new BestMatchingBasicTask(startIndex, 
endIndex, dictionary, word); 
tasks.add(task) ; 





为 了 处 理 结果 ， 我 们 调用 invokeA11( ) 方 法 并 且 之 后 遍历 返回 的 
Future 对 象 列表 。 





results = executor.invokeAll(tasks); 

executor. shutdown(); 

List<String> words = new ArrayList<String>(); 
int minDistance = Integer.MAX_VALUE; 

for (Future<BestMatchingData> future : results) { 
BestMatchingData data = future.get(); 

if (data.getDistance() < minDistance) { 
words.clear(); 

minDistance = data.getDistance(); 
words.addAll(data.getWords()); 

else if (data.getDistance()== minDistance) { 
words.addAll(data.getwWords()); 


we 


} 

BestMatchingData result = new BestMatchingData(); 
result.setDistance(minDistance); 
result.setWords(words); 

return result; 





为 执行 该 版 本 的 代码 ， 我 们 还 实现 了 
BestMatchingConcurrentAdvancedMain 类 。 该 类 的 源码 与 前 一 个 例 
FF (BestMatchingConcurrentMain) 的 代码 非常 类 似 ， 此 处 不 再 
给 出 。 


5.2.5 ”单词 存在 算法 : 串 行 版 本 


本 例 中 ， 我 们 实现 了 另 一 个 操作 来 检查 一 个 字符 串 是 否 在 我 们 的 单词 列 
表 中 。 为 检查 一 个 单词 是 否 存在 ， 我 们 要 再 次 用 到 Levenshtein 距 离 。 我 
们 认为 ， 如 果 列 表 中 存在 某 个 单词 ， 那 么 该 单词 与 列表 中 的 某 一 单词 之 
间 的 距离 为 0。 使 用 equals() 方 法 或 者 equalsIgnoreCase() 方 法 做 对 
比 会 更 加 快捷 ， 或 者 也 可 将 输入 单词 读 入 到 一 个 HashSset 中 并 使 

用 contains() 方 法 (这 比 我 们 的 版 本 更 加 高 效 ) ， 但 是 这 里 假定 我 们 
的 版 本 更 加 适合 本 书 的 主 则 。 


正如 前 面 的 例子 ， 首 先 ， 我 们 实现 该 操作 的 串 行 版 本 ， 将 其 作为 基础 来 
实现 并 发 版 本 ， 然 后 再 对 比 这 两 个 版 本 的 执行 时 间 。 


实现 串 行 版 程序 时 ， 要 用 到 如 下 两 个 类 。 
e ExistSerialCalculation#&: 该 类 实现 existWord() 方 法 来 比较 
输入 字符 串 和 字典 中 的 所 有 单词 ， 直 到 找到 该 单词 为 止 。 
e ExistSerialMaink: 该 类 局 动 本 例 并 且 上 度量 执行 时 间 。 


让 我 们 分 析 一 下 这 两 个 类 的 源 代码 。 








01. ExistSerialCalculation 类 


该 类 只 有 一 个 方法 ， 就 是 existWord() 方 法 。 该 方法 接收 两 个 参 
Bl. 我 们 要 查找 的 单词 与 完整 的 单词 列表 。 该 方法 查找 整个 列表 ， 
计算 输入 单词 和 列表 中 每 个 单词 之 间 的 Levenshtein 距 离 ， 直 到 找到 
满足 条 件 的 单词 (距离 为 0) 为 止 ， 这 种 情况 下 该 方法 返回 true 


值 ， 或 者 当 结 束 对 单词 列表 的 查找 时 没有 找到 单词 ， 此 时 该 方法 返 
回 false 值 。 参 见 如 下 代码 块 : 


public class ExistSerialCalculation { 


public static boolean existWord(String word, List<String> 
dictionary) { 
for (String str: dictionary) { 
if (LevenshteinDistance.calculate(word, str) == 6) { 


return true; 


} 
} 
return false; 
} 
} 





ExistSerialMain2 


该 类 实现 了 main() 方 法 ， 并 在 其 中 调用 了 existWord() 方 法 。 该 
类 将 main() 方 法 的 第 一 个 参数 作为 我 们 要 查找 的 单词 ， 并 且 调 
用 existWord() 方 法 进行 查找 。 该 类 还 度量 其 执行 时 间 并 在 控制 台 
显示 结果 。 我 们 给 出 下 述 代 码 。 
public class ExistSerialMain { 

public static void main(String[] args) { 

Date startTime, endTime; 

List<String> dictionary=WordsLoader.load("data/UK Advanced 

Cryptics Dictionary.txt"); 


System.out.println("Dictionary Size: "+dictionary.size()); 


startTime=new Date(); 


boolean result=ExistSerialCalculation.existWord(args[@], 
dictionary) ; 


endTime=new Date(); 


System.out.println("Word: "+args[@]); 

System.out.println("Exists: "+result); 

System.out.println( "Execution Time: "+(endTime.getTime() - 
startTime.getTime())); 

} 





5.2.6 ”单词 存在 算法 : 并 行 版 本 


要 实现 这 一 操作 的 并 发 版 本 ， 我 们 要 考虑 其 最 重要 的 特征 ， 不 需要 处 理 
整个 单词 列表 。 找 到 符合 条 件 的 单词 时 ， 束 可 以 完成 该 列表 的 处 理 并 且 
返回 结果 。 这 一 操作 并 不 处 理 整 个 输入 数据 ， 而 是 满足 某 个 条 件 时 就 会 
停止 ， 这 也 叫 作 短路 (short-circuit) 操作 。 


AbstractExecutorService 接 口 定 义 了 一 个 可 适应 上 述 想法 的 操作 
(在 ThreadPoolExecutor 类 中 实现 ) ， 即 invokeAny() 方 法 。 该 方法 
接收 一 个 Callable 任 务 列表 作为 参数 ， 并 且 将 其 发 送 给 执行 器 ， 然 后 
返回 第 一 个 完成 执行 且 没 有 抛 出 异常 的 任务 作为 结果 。 如 果 所 有 任务 都 
抛 出 了 异常 ， 则 该 方法 殷 出 一 个 ExecutionException 寞 常 。 


正如 前 面 的 例子 所 示 ， 为 实现 该 版 本 的 算法 我 们 还 实现 了 如 下 这 些 类 。 
ExistBasicTask 类 实现 了 我 们 将 要 在 执行 器 中 执行 的 任务 。 
ExistBasicConcurrentCalculation 类 创建 了 执行 器 和 任务 ， 并 
日 将 任务 发 送 给 执行 器 。 


ExistBasicConcurrentMain 类 用 于 执行 示例 并 且 度 量 其 运行 时 
间 。 








ExistBasicTasks 类 


该 类 实现 了 搜索 单词 的 任务 。 它 实现 了 以 布尔 类 参数 化 的 
Callable 接 口 。 如 果 有 任务 找到 了 单词 ， 则 其 call( ) 方 法 将 返回 
true 值 。 该 类 使 用 了 如 下 四 个 内 部 属性 。 


o 完整 的 单词 列表 。 

o 任务 将 在 列表 中 处 理 的 第 一 个 单词 〈 包 括 ) 。 

o 任务 将 在 列表 中 处 理 的 最 后 一 个 单词 〈 不 包括 ) 。 
o 任务 要 但 找 的 单词 。 


我 们 有 如 下 代码 。 





public class ExistBasicTask implements Callable<Boolean> { 


private int startIndex; 
private int endIndex; 


private List<String> dictionary; 
private String word; 


public ExistBasicTask(int startIndex, int endIndex, 
List<String> dictionary, String word) { 
this.startIndex=startIndex; 
this .endIndex=endIndex; 
this.dictionary=dictionary; 
this .word=word; 





call Arie 7 B28 AES AY AGE Op Fe, Te A i] A K 
分 列表 中 各 单词 之 间 的 Levenshtein 距 离 。 如 果 找 到 了 该 单词 ， 那 么 
它 将 返回 true 值 。 


如 果 任 务 处 理 完 分 配给 它 的 所 有 单词 之 后 并 没有 发 现 要 找 的 单词 ， 

那么 它 将 抛 出 一 个 异常 以 适应 invokeAny( ) 方 法 的 行为 。 在 这 种 情 
况 下 ， 如 果 该 任务 返回 了 false 值 ，invokeAny() 方 法 将 返回 false 值 
而 无 须 等 待 剩 下 的 任务 。 也 许 另 一 个 任务 会 找到 该 单词 。 


代码 如 下 所 示 。 





@Override 
public Boolean call() throws Exception { 
for (int i=startIndex; i<endIndex; i++) { 
if (LevenshteinDistance.calculate(word, dictionary.get(i))==0) { 
return true; 


} 


} 
if (Thread.interrupted()) { 
return false; 
} 
throw new NoSuchElementException("The word "+word+" 
doesn't exists."); 





e ExistBasicConcurrentCalculation 类 


该 类 将 执行 在 完整 单词 列表 中 搜索 输入 单词 的 过 程 ， 创 建 并 执行 必 
要 的 任务 。 该 类 仅仅 实现 了 一 个 名 为 existWord( ) 的 方法 。 该 方法 
接收 两 个 参数 、 输 入 字符 串 和 完整 的 单词 列表 ， 并 且 返 回 一 个 布尔 
值 ， 以 表明 单词 是 否 存 在 。 





首先 ， 创 建 执 行 器 来 执行 这 些 任 务 。 我 们 使 用 Executor 类 并 且 创 
娃 一 个 ThreadPool1Executor 类 ， 该 类 的 最 大 线程 数 由 计算 机 的 可 
用 硬件 线程 数 决 定 ， 如 下 所 示 : 





public class ExistBasicConcurrentCalculation { 


public static boolean existWord(String word, List<String> dictionary 


throws InterruptedException, ExecutionException 
int numCores = Runtime.getRuntime().availableProcessors(); 
ThreadPoolExecutor executor = (ThreadPoolExecutor ) 
Executors.newFixedThreadPool(numCores) ; 





然后 ， 创 建 与 执行 器 中 运行 的 线程 数目 相同 的 任务 。 每 个 任务 都 处 
同等 的 一 部 分 。 我 们 创建 这 些 任 务 并 且 将 其 存放 在 一 
hed : 


int size = dictionary.size(); 

int step = size / numCores; 

int startIndex, endIndex; 

List<ExistBasicTask> tasks = new ArrayList<>(); 


for (int i = @; i < numCores; i++) { 
startIndex = i * step; 


if (i == numCores - 1) { 
endIndex = dictionary.size(); 
} else { 
endIndex = (i + 1) * step; 
} 
ExistBasicTask task = new ExistBasicTask(startIndex, endIndex, 
dictionary, word); 


tasks.add(task) ; 





然后 ， 使 用 invokeAny() 方 法 在 执行 器 中 执行 这 些 任务 。 如 采 该 方 
法 返回 一 个 布尔 值 ， 则 单词 存在 ， 束 返回 该 值 。 如 果 该 方法 抛 出 寞 
常 ， 则 单词 不 存在 ， 我 们 就 在 控制 台 打 印 异常 并 且 返 回 false 值 。 这 
两 种 情况 下 ， 我 们 都 调用 执行 器 的 shutdown() 方 法 来 结束 其 执 
行 ， 如 下 所 示 : 


try { 
Boolean result=executor.invokeAny(tasks) ; 





return result; 
} catch (ExecutionException e) { 
if (e.getCause() instanceof NoSuchElementException) 
return false; 
throw e; 
} finally { 
executor.shutdown(); 





除了 使 用 shutdown() 方 法 ， 我 们 还 可 以 使 用 shutdownNow( ) 77 
法 。 这 两 个 方法 之 间 的 主要 区 别 在 于 ，shutdown() 方 法 在 终止 执 
行 器 执行 之 前 会 执行 所 有 待 执行 任务 ， 而 shutdownNow( ) 方 法 则 不 
再 执行 待 执行 任务 。 


e ExistBasicConcurrentMain 类 


该 类 实现 了 本 例 中 的 main() 方 法 。 它 和 ExistSerialMain 类 相 
当 ， 唯 一 的 区 别 在 于 它 使 用 了 
ExistBasicConcurrentCalcu1lation 类 来 替代 
ExistSerialCalculation， 因 此 这 里 不 再 介绍 其 源 代 码 。 


5.2.7 对比 解 决 方案 


让 我 们 比较 一 下 在 本 节 实 现 的 两 个 操作 的 不 同 解 决 方案 (上 串 行 和 并 

行 )。 我 们 采用 JMH 框 染 (请 查看 名 为 “Code Tools: jmh” 的 文章 ) 执行 
这 些 示 例 ， 该 框架 允许 你 用 Java 实 现 微 型 基准 测试 。 使 用 一 个 面 癌 基 准 
测试 的 框架 是 比较 好 的 解决 方案 ， 它 直接 用 currentTimeMillis() 方 
法 或 者 nanoTime( ) 方 法 来 度量 时 间 。 我 们 在 两 种 不 同 的 架构 上 分 别 执 
行 这 些 示例 10 次 。 











。 一 台 计 算 机 配置 了 Intel Core i5-5300 处 理 器 、Windows 7 操作 系统 和 
16GB 的 RAM。 访 处理 器 有 两 个 ， 且 每 个 核 可 以 执行 两 个 线程 ， 这 
样 我 们 就 有 四 个 并 行 线程 。 


。 另 一 台 计 算 机 配置 了 AMD A8-640 处 理 器 、Windows 10 操 作 系 统 和 
8GB 的 RAM。 该 处 理 器 有 四 个 核 。 


。 BE VL ACH 


在 本 例 中 ， 我 们 实现 了 该 算法 的 三 个 版 本 。 

o BATRA. 

o 并 行 版 本 ， 一 次 发 送 一 个 任务 。 

o 并 行 版 本 ， 使 用 invokeAl1() 方 法 。 

为 了 测试 该 算法 ， 我 们 用 到 了 单词 列表 中 不 存在 的 三 个 字符 串 。 


o Stitter。 
o Abicus. 
o LOnx. 








下 面 是 最 佳 匹 配 算法 为 上 述 每 个 单词 返回 的 单词 列表 。 


o Stitter: sitter, skitter, slitter. spitter, stilter 
和 titter。 

o Abicus: abacus 和 amicus。 

o Lonx: lanx, lone, long, lox#lllynx. 
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} 





我 们 可 以 得 出 下 面 的 结论 。 


o 在 两 种 架构 上 ， 该 算法 的 并 行 版 本 的 性 能 部 要 比 串 行 版 本 好 。 

o 该 算法 的 两 个 并 行 版 本 取得 了 相似 的 结果 。 我 们 可 以 使 用 加 速 
比 来 比较 在 查找 单 词 Lonx 时 并 发 版 本 和 串 行 版 本 的 执行 速度 ， 
由 此 来 观察 并 发 处 理 如 何 提升 算法 的 性 能 。 
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。 存在 算法 
在 本 例 中 ， 我 们 实现 了 该 算法 的 两 个 版 本 。 


o 串 行 版 本 。 
o 并 行 版 本 ， 使 用 invokeAny() 方 法 。 


为 了 测试 该 算法 ， 我 们 用 到 了 一 些 字符 串 。 


单词 列表 中 不 存在 的 字符 串 xyzt。 

在 接近 单词 列表 末 剖 处 的 字符 串 stutter。 
在 接近 单词 列表 起 始 处 的 字符 串 abacus。 

在 单词 列表 刚刚 后 一 半 位 置 处 的 字符 串 lynx。 


以 又 秒 为 单位 的 平均 执行 时 间 如 下 表 所 示 。 


oe Intel 2 4) AMD 架 构 

i oe Se Te =e 
执行 时 间 (毫秒 ) 执行 时 间 CER) 
eS lynx 148.46 lynx 292.86 

any col Dynx | 

336.61 592.102 


O O O Oo 








n 








我 们 可 以 得 出 下 面 的 结论 。 


o 通常 ， 该 算法 的 并 发 版 本 可 比 串 行 版 本 提供 更 好 的 性 能 。 
o 单词 在 列表 中 的 位 置 是 一 个 关键 因素 。 对 于 单词 abacus 来 
说 ， 它 位 于 单词 列表 的 起 始 位置 ， 这 两 个 版 本 算法 的 执行 时 间 


相似 ， 但 是 对 于 单词 stutter 来 说 ， 二 者 的 差别 就 很 大 了 。 


ae 比 来 比较 并 发 版 和 串 行 版 得 找 单词 1ynx 的 速度 ， 可 得 到 如 
PAR. 





G T serial 292.86 2 65 

2AMD = n = — = 4.09 
T concurrent 1 10.5 1 

= T serial 148.46 
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T concurrent 7 100.51 Ji 


53 ”第 二 个 例子 : 为 文档 集 创建 倒 排 索引 


在 信息 检索 领域 ， 倒 排 索引 是 一 种 利 见 的 数据 结构 ， 用 于 加 快 在 文档 集 
中 查找 文本 的 速度 。 它 存储 了 文档 集 的 所 有 单词 ， 以 及 一 个 包含 这 些 单 
词 的 文档 列表 。 


为 构建 该 索引 ， 我 们 要 解析 文档 集中 的 所 有 文档 ， 并 且 以 增 量 方式 构建 
索引 。 对 于 每 个 文档 来 说 ， 我 们 抽取 该 文档 中 的 重要 单词 (删除 最 常见 
单词 ， 也 叫 作 停止 词 ， 或 者 也 可 能 应 用 词 干 提取 算法 ) ， 并 且 之 后 将 那 
些 单词 加 入 到 索引 中 。 如 果 一 个 文档 中 的 茶 个 单词 存在 于 索引 之 中 ， 惑 
将 该 文档 加 入 到 与 该 单词 相关 联 的 文档 列表 中 。 如 果 文 档 中 的 茶 个 单词 
并 不 存在 于 索引 之 中 ， 那 么 将 该 单词 加 入 到 索引 的 单词 列表 中 ， 并 且 将 
该 文档 与 该 单词 关联 起 来 。 可 以 为 这 种 关联 关系 加 入 一 些 参数 ， 例 如 文 
档 中 单词 的 “术语 频次 ”， 以 便 提 供 更 多 的 信息 。 


当 你 搜索 文档 集合 中 的 一 个 单词 或 者 单词 列表 时 ， 使 用 倒 排 索引 来 获取 
与 每 个 单词 相关 的 文档 列表 ， 并 创建 含有 搜索 结 末 的 一 个 唯一 列表 。 


本 市 ， 你 将 学 会 如 何 使 用 Java 并 发 程序 来 为 一 个 文档 集 构建 一 个 倒 排 索 
引文 件 。 人 至 于 文档 集 ， 我 们 选用 维基 百科 〈Wikipedia) 上 有 关 电 影 信息 
的 页 面 来 构建 一 个 含有 100 673 个 文档 的 集合 。 我 们 将 每 一 个 维基 百科 
页 面 转换 成 一 个 文本 文件 ， 你 可 以 随 本 书 配 套 源 码 一 起 下 载 该 文档 集 。 


为 了 构建 倒 排 索引 ， 我 们 不 会 删除 任何 单词 ， 也 不 会 使 用 任何 词 干 提取 
算法 。 我 们 希望 使 算法 尽 可 能 简单 ， 以 便 将 精力 集中 于 并 发 程序 上 。 


这 里 提 到 的 原理 同样 也 可 以 用 于 获取 有 关 文 档 集合 的 其 他 信息 ， 例 如 每 
个 文档 的 同 量 表 示 可 用 作 珍 类 算法 的 输入 ， 你 将 在 第 7 章 中 学 习 这 些 内 
Fo 

和 其 他 示例 一 样 ， 你 将 实现 这 些 操 作 的 串 行 版 和 并 发 版 ， 以 验证 在 该 例 
中 并 发 处 理 对 我 们 的 帮助 。 


5.3.1 公共 类 




















串 行 版 和 并 发 版 在 实现 将 文档 集合 加 载 到 Java 对 象 时 要 用 到 一 些 共同 的 


类 。 


我 们 用 到 了 下 面 两 个 类 。 


e。Document 类 ， 用 于 存放 文档 中 所 含 单词 的 列表 。 
。 DocumentParse 类 ， 用 于 将 一 个 以 文件 存储 的 文档 转换 成 一 个 文档 


对 象 。 
让 我 们 分 析 一 下 这 两 个 类 的 源 代 码 。 
01. Document% 


02. 


Document 类 非常 简单 ， 它 只 有 两 个 属性 以 及 用 于 获取 和 设置 属性 
值 的 方法 。 这 两 个 属性 如 下 。 
。 文件 名 ， 这 是 一 个 字符 串 。 


。 词汇 表 〈 也 瓯 是 在 文档 中 用 到 的 单词 的 列表 ) ， 这 是 一 
OE ee ee 








DocumentParser 类 


正如 前 面 提 到 的 ， 该 类 将 以 文件 存储 的 文档 转换 为 以 Document 对 
象 表 示 的 文档 。 它 将 单词 划分 为 三 个 方法 。 第 一 个 是 parse() 方 

法 ， 它 接收 文件 路 径 作 为 参数 ， 并 且 返 回 一 个 带 有 该 文档 词汇 表 的 
HashMap。 访 方法 使 用 Files 类 的 readAL11Lines() 方 法 逐 行 读 取 
文件 ， 并 使 用 parseLine() 方 法 将 每 一 行 转换 成 一 个 单词 列表 ， 并 
且 将 其 添加 到 词汇 表 中 ， 如 下 所 示 。 








public class DocumentParser { 


public Map<String, Integer> parse(String route) { 
Map<String, Integer> ret=new HashMap<String, Integer>(); 
Path file=Paths.get(route) ; 
try { 
List<String> lines = Files.readAllLines(file) ; 
for (String line : lines) { 
parseLine(line,ret); 


} catch (IOException e) { 
e.printStackTrace(); 
} 


return ret; 


} 


parseLine() 方 法 处 理 当前 行 并 抽取 其 中 的 单词 。 为 使 本 例 更 加 简 
单 ， 我 们 将 单词 看 作 一 个 字母 字符 序列 。 我 们 使 用 Pattern 类 来 抽 
取 单 词 ， 使 用 Normalizer 类 将 单词 转换 成 小 写 形式 ， 并 且 删 除 元 
音 的 重音 符号 ， 如 下 所 示 : 


private static final Pattern PATTERN = Pattern.compile 
("\\P{IsAlphabetic}+"); 


private void parseLine(String line, Map<String, Integer> ret) { 
for(String word: PATTERN.split(line)) { 


if(!word.isEmpty() ) 
ret.merge(Normalizer.normalize(word, Normalizer.Form.NFKD) 
.toLowerCase(), 1, (a, b) -> a+b); 





5.3.2 HATHA 


本 例 的 串 行 版 本 在 SerialIndexing 类 中 实现 。 该 类 含有 main() 方 法 ， 
可 以 读 取 所 有 文档 、 获 取 其 词汇 表 ， 并 且 以 增 量 方式 构建 倒 排 索引 。 
首先 ， 我 们 初始 化 必要 的 变量 。 文 档 集 存放 在 目录 data 中 ， 因 此 我 们 用 
一 个 File 对 象 数 组 来 存储 所 有 的 文档 。 我 们 还 初始 化 了 
invertedIndex 对 象 。 在 此 用 到 了 一 个 HashMap， 它 的 键 为 单词 ， 而 它 
的 值 是 一 个 字符 串 对 象 列表 ， 这 些 字 符 串 表示 的 是 含有 该 单词 的 文件 的 
名 称 ， 如 下 所 示 : 


public class SerialIndexing { 


public static void main(String[] args) { 


Date start, end; 

File source = new File("data"); 

File[] files = source.listFiles(); 

Map<String, List<String>> invertedIndex=new 
HashMap<String,List<String>> (); 





然后 ， 我 们 使 用 DocumentParse 类 来 解析 所 有 文档 ， 并 且 使 


用 updateInvertedIndex() 方 法 将 从 各 个 文档 获取 的 词汇 表 添 加 到 倒 
排 索 引 中 。 我 们 还 测量 了 所 有 处 理 过 程 的 执行 时 间 ， 代 码 如 下 所 示 : 


start=new Date(); 
for (File file : files) { 


DocumentParser parser = new DocumentParser(); 


if (file.getName().endswWith(".txt")) { 
Map<String, Integer> voc = parser.parse(file.getAbsolutePath()); 
updateInvertedIndex(voc, invertedIndex, file.getName()); 


} 


end=new Date(); 


最 后 ， 我 们 在 控制 台中 显示 执行 结果 。 





System.out.println("Execution Time: "+(end.getTime()- 
start.getTime())); 
System.out.println("invertedIndex: "+invertedIndex.size()); 


} 


updateInvertedIndex() 方 法 将 一 个 文档 的 词汇 表 添 加 到 倒 排 索引 结 
构 中 。 它 处 理 所 有 构成 词汇 表 的 单词 。 如 果 单 词 已 经 存在 于 倒 排 索引 之 
中 ， 我 们 将 文档 名 称 添加 到 与 该 单词 相关 联 的 文档 列表 之 中 。 如 果 单 词 
并 不 存在 于 倒 排 索引 之 中 ， 就 将 单词 加 入 倒 排 索引 并 且 将 文档 与 该 单词 
关联 起 来 ， 如 下 所 示 : 











private static void updateInvertedIndex(Map<String, Integer> voc, 
Map<String, List<String>> invertedIndex, String fileName) { 
for (String word : voc.keySet()) { 
if (word.length() >= 3) { 


invertedIndex.computeIfAbsent(word, k -> new 
ArrayList<>()).add(fileName) ; 





5.3.3 ”第 一 个 并 发 版 本 : 每 个 文档 一 个 任务 
现在 ， 是 实现 并 发 版 文本 索引 算法 的 时 候 了 。 显 然 ， 我 们 可 以 并 行 化 每 





个 文档 的 处 理 。 其 中 包括 从 文件 读 取 文档 和 逐 行 处 理 以 获取 文档 词汇 
表 。 各 任务 可 返回 词汇 表 作 为 结果 ， 因 此 我 们 可 以 基于 Callable 接 口 
来 实现 任务 。 


在 前 面 的 示例 中 ， 我 们 用 了 三 个 方法 来 将 Callable 任 务 发 送 给 执行 
AÑ o 





e submit() 
e invokeAll() 
e invokeAny() 


我 们 要 处 理 所 有 的 文档 ， 因 此 必须 放弃 invokeAny() 方 法 。 可 其 他 两 个 
方法 又 很 不 方便 。 如 果 我 们 使 用 submit () 方 法 ， 就 必须 确定 在 何 时 处 
MAEAEA. 如 打 为 每 个 文档 都 发 送 一 个 任务 ， 就 可 以 以 如 下 方式 处 
理 结果 。 


© 在 发 送 每 个 任务 后 ， 显 然 这 是 不 现实 的 。 
© 在 所 有 任务 完成 后 ， 这 样 我 们 就 需要 存储 大 量 Future 对 象 。 
© 在 及 送 一 组 任务 后 ， 我 们 需要 编写 代码 来 同步 两 个 操作 。 


这 些 方 法 都 有 一 个 问题 : 我 们 以 顺序 方式 来 处 理 这 些 任 务 的 结束。 如 宁 
所 处 的 情形 就 与 第 二 点 相似 ， 我 们 必须 等 所 有 
EF PEER 


一 个 可 行 的 供 选 方案 是 创建 其 他 一 些 任务 来 处 理 与 每 个 任务 相关 的 
Future 对 象 ， 而 Java 并 发 API 提 供 了 一 种 很 好 的 解决 方案 ， 采 

用 CompletionService 接 口 及 其 实现 

(C 即 ExecutorCompletionService 类 ) 来 实现 这 一 解决 方案 。 


CompletionSservice 对 象 珊 有 一 个 执行 器 ， 它 允许 你 将 任务 生成 和 那 
些 任 务 结果 的 使 用 分 离开 来 。 你 可 以 使 用 submit( ) 方 法 向 执行 器 发 送 
任务 ， 并 在 这 些 任务 执行 完毕 后 使 用 pol1() 或 者 take( ) 方 法 来 获取 其 
结果 。 因 此 ， 就 我 们 的 解决 方案 而 言 ， 将 实现 下 述 要 素 。 


。 一 个 用 于 执行 任务 的 CompletionService 对 象 。 

。 为 每 个 文档 分 配 一 个 任务 以 解析 文档 并 且 生 成 其 词汇 表 ， 而 该 任务 
将 由 CompletionService 对 象 来 执行 。 这 些 任务 都 
在 IndexingTask 类 中 实现 。 














。 创建 两 个 线程 来 处 理 任 务 结果 并 且 构 造 倒 排 索引 。 这 些 线程 都 
在 InvertedIndexTask 类 中 实现 。 

。 一 个 用 于 创建 和 执行 所 有 要 素 的 main() 方 法 。 该 方法 
在 ConcurrentIndexingMain 类 中 实现 。 


让 我 们 来 分 析 一 下 这 些 类 的 源 代 码 。 
01. IndexingTask 类 


该 类 实现 的 任务 是 解析 一 个 文档 来 获取 其 词汇 表 。 该 类 实现 了 

用 Document 类 参数 化 的 callable 接 口 。 它 有 一 个 存储 File 对 象 的 
内 部 属性 ， 而 该 File 对 象 代 表 了 它 要 解析 的 文档 。 请 看 下 面 的 代 
但: 





public class IndexingTask implements Callable<Document> { 
private File file; 


public IndexingTask(File file) { 
this.file=file; 
} 





在 call( ) 方 法 中 ， 直 接 使 用 了 DocumentParser 类 的 parse() 方 法 
来 解析 文档 ， 获 得 词汇 表 ， 并 且 根 据 获 得 的 数据 创建 和 返回 
Document 对 象 。 


@Override 
public Document call() throws Exception { 
DocumentParser parser = new DocumentParser(); 


Map<String, Integer> voc = parser.parse(file.getAbsolutePath()); 


Document document=new Document(); 
document. setFileName(file.getName()); 
document.setVoc(voc) ; 

return document; 





02. InvertedIndexTask2 


该 类 实现 的 任务 是 获取 由 IndexingTask 对 象 生成 的 Document 对 
象 ， 并 且 创 建 倒 排 索引 。 该 任务 将 作为 Thread 对 象 来 执行 〈 我 们 


在 本 例 中 没有 使 用 执行 器 ) ， 因 此 它 是 基于 Runnable 接 口 的 。 
InvertedIndexTask 类 用 到 了 下 述 三 个 内 部 属性 。 


。 由 Document 类 参数 化 的 Completionservice 对 象 ， 用 于 访问 
由 IndexingTask 对 象 返 回 的 对 象 。 

。 用 于 存储 倒 排 索引 的 ConcurrentHashMap， 其 键 为 单词 ， 而 
值 为 一 个 存放 文件 名 字符 串 的 ConcurrentLinkedDeque。 在 
本 例 中 ， 我 们 要 使 用 并 发 数据 结构 ， 而 在 串 行 版 本 中 使 用 的 数 
据 结构 是 没有 同步 机 制 的 。 

© 一 个 用 于 表明 任务 能 够 完成 其 工作 的 布尔 值 。 


相关 代码 如 下 所 示 : 











public class InvertedIndexTask implements Runnable { 


private CompletionService<Document> completionService; 

private ConcurrentHashMap<String, 
ConcurrentLinkedDeque<String>> invertedIndex; 

public InvertedIndexTask(CompletionService<Document> 


completionService, ConcurrentHashMap<String, 

ConcurrentLinkedDeque<String>> invertedIndex) { 
this.completionService = completionService; 
this.invertedIndex = invertedIndex; 





run( ) 方 法 使 用 来 自 CompletionService 类 的 take() 方 法 获取 与 
某 一 任务 相关 联 的 Future 对 象 。 我 们 实现 了 一 个 循环 ， 在 线程 中 
断 之 前 该 循环 将 一 直 运 行 。 当 该 线程 中 断 之 后 ， 它 会 再 次 使 

用 pol1() 方 法 处 理 所 有 待 处 理 的 Future 对 象 。 我 们 使 

用 updateInvertedIndex() 方 法 以 及 take( ) 方 法 返回 的 对 象 来 更 
新 倒 排 索引 ， 方 法 如 下 所 示 : 





public void run() { 
try { 
while (!Thread.interrupted()) { 
try { 
Document document = completionService.take().get(); 
updateInvertedIndex(document.getVoc(), invertedIndex, 
document. getFileName()); 


} catch (InterruptedException e) { 
break; 


} 


} 
while (true) { 
Future<Document> future = completionService.poll(); 
if (future == null) 
break; 
Document document = future.get(); 
updateInvertedIndex(document.getVoc(), invertedIndex, 
document.getFileName()) ; 


} catch (InterruptedException | ExecutionException e) { 
e.printStackTrace(); 
} 
} 





最 后 ，updateInvertedIndex 方 法 将 从 文档 获得 的 词汇 表 、 倒 排 
索引 和 文件 名 作为 参数 处 理 。 访 方法 处 理 词汇 表 的 所 有 单词 。 如 果 
单词 没有 在 索引 中 出 现 ， 我 们 使 用 computeIfAbsent() 方 法 将 其 
添加 到 invertedIndex 中 。 





private void updateInvertedIndex(Map<String, Integer> voc, 
ConcurrentHashMap<String, ConcurrentLinkedDeque<String>> 
invertedIndex, String fileName) { 
for (String word : voc.keySet()) { 
if (word.length() >= 3) { 


invertedIndex.computeIfAbsent(word, k -> new 
ConcurrentLinkedDeque<>()).add(fileName) ; 





03. ConcurrentIndexing2 


REAPINER., BRAVES SPA, SRT ES 
束 ， 并 且 在 控制 台 输 出 最 终 执 行 时 间 。 
首先 ， 它 要 创建 并 初始 化 执行 过 程 中 所 需 的 所 有 变量 。 


。 运行 InvertedTask 任 务 的 执行 颈 。 和 前 面 的 例子 一 样 ， 我 们 
使 用 机 堪 的 核心 数 作 为 执行 器 中 的 最 大 工作 线程 数 。 不 过 在 本 
例 中 ， 我 们 预 留 了 一 个 核 来 执行 独立 线程 。 








。 用 于 运行 任务 的 CompletionService 对 象 。 我 们 使 用 此 前 创 
建 的 执行 器 来 初始 化 该 对 象 。 

。 用 于 存储 倒 排 索引 的 ConcurrentHashMap。 

。 一 个 含有 所 有 待 处 理 文档 的 File 对 象 数组 。 


相关 方法 如 下 所 示 : 


public class ConcurrentIndexing { 


public static void main(String[] args) { 


int numCores=Runtime. getRuntime().availableProcessors(); 
ThreadPoolExecutor executor=(ThreadPoolExecutor ) 
Executors.newFixedThreadPool(Math.max(numCores-1, 1)); 
ExecutorCompletionService<Document> completionService=new 
ExecutorCompletionService<>(executor) ; 
ConcurrentHashMap<String, ConcurrentLinkedDeque<String>> 
invertedIndex=new ConcurrentHashMap 
<String, ConcurrentLinkedDeque<String>> (); 


Date start, end; 


File source = new File("data"); 
File[] files = source.listFiles(); 





然后 ， 处 理 数组 中 的 所 有 文件 ， 为 每 个 文件 创建 一 

个 InvertedTask 对 象 ， 并 且 使 用 submit() 方 法 将 其 发 送 给 
CompletionService 类 。 我 们 已 经 介绍 了 一 种 避免 执行 器 过 载 的 
方法 。 我 们 可 以 检查 待 处 理 任务 队列 的 规模 ， 如 果 访 队列 的 规模 大 
于 1000， 就 将 该 线程 休眠 ， 队 列 规 模 不 再 减 小 之 时 ， 我 们 就 不 再 发 
送 更 多 任务 了 。 





start=new Date(); 
for (File file : files) { 
IndexingTask task=new IndexingTask(file) ; 
completionService.submit(task) ; 
if (executor.getQueue().size()>1000) { 
do { 
try { 
TimeUnit .MILLISECONDS. sleep(5@); 
} catch (InterruptedException e) { 
e.printStackTrace(); 
} 


} while (executor.getQueue().size()>100@) ; 


} 
} 


然后 ， 创 建 两 个 InvertedIndexTask 对 象 来 处 理由 InvertedTask 
任务 返回 的 结果 ， 并 且 将 其 作为 常规 Thread 对 象 来 执行 。 





InvertedIndexTask invertedIndexTask=new InvertedIndexTask 
(completionService, invertedIndex) ; 

Thread threadi=new Thread(invertedIndexTask) ; 

thread1.start(); 


InvertedIndexTask invertedIndexTask2=new InvertedIndexTask 
(completionService, invertedIndex) ; 

Thread thread2=new Thread(invertedIndexTask2) ; 

thread2.start(); 








启动 所 有 要 素 之 后 ， 可 使 用 shutdown() 方 法 和 
awaitTermination() 方 法 等 待 执 行 器 结 

束 。awaitTermination() 方 法 将 在 所 有 InvertedTask 任 务 执行 
完毕 后 返回 ， 这 样 我 们 就 可 以 结束 执行 InvertedIndexTask 任 务 
的 线程 了 。 要 做 到 这 一 点 ， 我 们 需要 中 断 这 些 线程 〈 参 看 有 

关 InvertedIndexTask 的 注释 ) ， 如 下 面 的 代码 片段 所 示 : 





executor .shutdown() ; 

try { 
executor.awaitTermination(1, TimeUnit.DAYS); 
thread1.interrupt(); 
thread2.interrupt(); 
thread1.join(); 
thread2.join(); 

} catch (InterruptedException e) { 
e.printStackTrace(); 


} 


ae ， 我 们 在 控制 台 输 出 倒 排 索引 的 大 小 以 及 所 有 处 理 过 程 的 执行 
时 间 : 








end=new Date(); 

System.out.println("Execution Time: "+(end.getTime()- 
start.getTime())); 

System.out.println("invertedIndex: "+invertedIndex.size()); 


} 


} 


5.3.4 ”第 二 个 并 发 版 本 : 每 个 任务 多 个 文档 


我 们 还 实现 了 本 例 的 第 二 个 并 发 版 本 。 基 本 原理 与 第 一 个 版 本 的 相同 ， 
但 是 在 本 例 中 ， 每 个 任务 将 处 理 多 个 文档 而 不 是 仅 处 理 一 个 文档 。 每 个 
任务 处 理 的 文档 数 将 作为 main() 方 法 的 一 个 输入 参数 。 我 们 测试 了 每 
个 任务 处 理 100、1000 和 5000 个 文档 的 结果 。 


为 实现 这 一 新 方式 ， 需 要 实现 下 述 三 个 新 类 。 


e MultipleIndexingTask#: 该 类 与 IndexingTask 类 相当 ， 但 是 
它 处 理 的 是 一 个 文档 列表 ， 而 不 仅仅 是 一 个 文档 。 

e MultipleInvertedIndexTask#: 该 类 与 InvertedIndexTask 类 
相当 ， 只 不 过 现在 任务 要 检索 的 是 一 个 Document 对 象 列表 ， 而 不 
仅仅 是 一 个 Document 对 象 。 

。MultipleConcurrentIndexing 类 : 该 类 与 ConcurrentIndexing 


类 相当 ， 只 不 过 它 还 用 到 了 其 他 新 类 。 


o 的 源 代 码 和 前 一 版 本 多 有 相似 ， 我 们 仅 给 出 其 中 的 不 同 

















01. MultipleIndexingTask 类 


正如 前 面 提 到 的 ， 该 类 和 此 前 介绍 的 IndexingTask 类 很 类 似 。 主 
要 区 别 在 于 它 使 用 的 是 一 个 File 对 象 列表 ， 而 不 仅仅 是 一 个 文件 。 





public class MultipleIndexingTask implements Callable<List<Document>> 


private List<File> files; 


public MultipleIndexingTask(List<File> files) { 
this.files = files; 


} 





call() 方 法 返回 的 是 一 个 Document 对 象 列 表 ， 而 不 仅仅 是 一 
个 Document 对 象 。 


@Override 
public List<Document> call() throws Exception { 
List<Document> documents = new ArrayList<Document>(); 
for (File file : files) { 
DocumentParser parser = new DocumentParser(); 


Hashtable<String, Integer> voc = parser.parse 
(file.getAbsolutePath()); 


Document document = new Document(); 
document .setFileName(file.getName()); 
document .setVoc(voc); 


documents.add(document ) ; 


} 


return documents; 


} 
} 





02. MultipleInvertedIndexTask 类 


正如 前 面 提 到 的 ， 该 类 和 前 面 介绍 的 InvertedIndexClass 类 相 
似 。 主 要 区 别 在 于 run() 方 法 。pol1() 方 法 返回 的 Future 对 象 返 
回 了 一 个 Document 对 象 列 表 ， 因 此 我 们 要 处 理 的 是 整个 列表 。 请 
看 如 下 代码 片段 : 





@Override 
public void run() { 
try { 
while (!Thread.interrupted()) { 
try { 
List<Document> documents = completionService.take().get(); 
for (Document document : documents) { 
updateInvertedIndex(document.getVoc(), invertedIndex, 
document.getFileName() ) ; 
} 
} catch (InterruptedException e) { 
break; 


} 


while (true) { 
Future<List<Document>> future = completionService.poll(); 
if (future == null) 
break; 


List<Document> documents = future.get(); 
for (Document document : documents) { 
updateInvertedIndex(document.getVoc(), invertedIndex, 
document. getFileName()); 
} 
} 
} catch (InterruptedException | ExecutionException e) { 
e.printStackTrace(); 
} 


} 





03. MultipleConcurrentIndexing2 


正如 前 面 提 到 的 ， 该 类 和 ConcurrentIndexing 类 很 相似 。 唯 一 不 
同 的 是 利用 新 类 ， 并 且 使 用 第 一 个 参数 来 决定 每 个 任务 所 处 理 的 文 
档 数 量 。 我 们 有 如 下 方法 : 





start=new Date(); 
List<File> taskFiles=new ArrayList<>(); 
for (File file : files) { 
taskFiles.add(file); 
if (taskFiles.size()==NUMBER_OF_TASKS) { 
MultipleIndexingTask task=new MultipleIndexingTask(taskFiles) ; 
completionService.submit(task) ; 
taskFiles=new ArrayList<>(); 
if (executor.getQueue().size()>10) { 
do { 
try { 
TimeUnit.MILLISECONDS.sleep(5@); 
} catch (InterruptedException e) { 
e.printStackTrace(); 
} 
} while (executor.getQueue().size()>10); 
} 
} 


if (taskFiles.size()>0) { 
MultipleIndexingTask task=new MultipleIndexingTask(taskFiles); 
completionService.submit(task); 


} 


MultipleInvertedIndexTask invertedIndexTask=new 
MultipleInvertedIndexTask(completionService, invertedIndex) 

Thread threadi=new Thread(invertedIndexTask) ; 

thread1.start(); 


MultipleInvertedIndexTask invertedIndexTask2=new 
MultipleInvertedIndexTask (completionService, invertedIndex) 

Thread thread2=new Thread(invertedIndexTask2) ; 

thread2.start(); 





5.3.5 ”对比 解 决 方案 


让 我 们 对 比 一 下 前 面 已 经 实现 的 该 例 三 个 版 本 的 解决 方案 。 正 如 前 面 提 
到 的 ， 在 文档 集合 方面 ， 我 们 选取 了 有 关 电 影 信 息 的 维基 百科 页 面 构建 
了 一 个 含有 100 673 个 文档 的 文档 集合 。 我 们 将 每 个 维基 百科 页 面 转换 
为 一 个 文本 文件 。 你 可 以 下 载 该 文档 集合 以 及 所 有 有 关 本 书 的 信息 。 


我 们 执行 了 五 个 版 本 的 解决 方案 。 


。 串 行 版 本 。 

© 一 个 任务 处 理 一 个 文档 的 并 发 版 本 。 

© 一 个 任务 处 理 多 个 文档 的 并 发 版 本 ， 分 为 每 个 任务 分 别处 理 100、 
1000 和 5000 个 文档 的 情况 。 











我 们 采用 JMH 框 架 (请 查看 名 为 “Code Tools: jmh” 的 文章 ) 执行 这 些 示 
例 ， 该 框架 允许 你 用 Java 实 现 微型 基准 测试 。 使 用 一 个 面向 基准 测试 的 
框架 是 比较 好 的 解决 方案 ， 它 直接 用 currentTimeMillis() 方 法 或 
es ) 方 法 度量 时 间 。 我 们 在 两 种 不 同 的 架构 上 分 别 执行 这 些 
ARVO 


。 一 台 计 算 机 配置 了 Core i5-5300 处 理 器 、Windows 7 操作 系统 和 
16GB 的 RAM。 访 处理 器 有 两 个 核 ， 且 每 个 核 可 以 执行 两 个 线程 ， 
这 样 我 们 就 有 四 个 并 行 线程 。 

。 另 一 台 计 算 机 配置 了 AMD A8-640 处 理 器 、Windows 10 操 作 系 统 和 
8GB 的 RAM。 该 处 理 器 有 四 个 核 。 


下 表 给 出 了 五 个 版 本 的 执行 时 间 。 





Intel 架 构 AMDE (4) 
执行 时 间 《 毫 秒 ) | 执行 时 间 (毫秒 ) 





算法 





串 行 版 本 29 305.63 137 519.75 
并 发 版 本 : 一 个 任务 处 理 一 个 文档 13 704.17 75 593.93 
并 发 版 本 : 一 个 任务 处 理 100 个 文档 26 579.30 195 928.209 






































并 发 版 本 : 一 个 任务 处 理 1000 个 文档 25 126.47 133 080.655 





























ET 





我 们 可 以 得 出 下 面 结论 。 


。 并 发 版 本 总 是 比 串 行 版 本 性 能 好 。 
。 如 果 增 加 每 个 任务 所 处 理 的 文档 数量 ， 将 获得 
T Ven 


在 本 例 中 ， 两 种 架构 上 的 执行 结果 有 较 大 差异 ， 但 是 其 他 因素 ， 例 如 硬 
盘 、 内 存 空间 和 处 理 速度 等 ， 实 际 上 对 本 例 的 结果 有 较 大 的 影响 ， 因 为 
本 例 读 取 的 文件 超过 100 000 份 ， 会 频繁 使 用 内 存 。 


ee 加 速 比 来 比较 串 行 版 本 和 并 发 版 本 的 处 理 速度 ， 就 会 得 到 
NR GAR 





Sap = seria A _ 189 
Tconcurent 75 5.93.93 

Sinta = T serial _ 29 305.63 _ 213 
了 concurrent 13 704.17 








5.3.6 ”其 他 相关 方法 


本 章 ， 我 们 用 AbstractExecutorService 接 口 

(在 ThreadPoolExecutor 类 中 实现 ) 和 CompletionService 接 口 
(在 ExecutorCompletionService 中 实现 ) 的 一 些 方法 来 管 

理 Callable 任 务 的 结果 。 然 而 ， 在 此 我 们 还 想 提 及 我 们 曾 用 过 的 这 些 
方法 的 其 他 版 本 以 及 其 他 一 些 方法 。 


关于 AbstractExecutorService 接 口 ， 我 们 介绍 下 述 方法 。 


e invokeAll (Collection<? extends Callable<T>> tasks, 
long timeout, TimeUnit unit): 当 作 为 参数 传递 的 callable 
任务 列表 中 的 所 有 任务 完成 执行 ， 或 者 执行 时 间 超 出 了 第 二 、 第 三 
个 参数 指定 的 时 间 范 围 时 ， 该 方法 返回 一 个 与 该 Callable 任 务 列 
表 相 关联 的 Future 对 象 列表 。 

e invokeAny (Collection<? Extends Callable<T>> tasks, 
long timeout, TimeUnit unit): 当 作 为 参数 传递 的 callable 


任务 列表 中 的 任务 在 超时 (由 第 三 和 第 三 个 参数 指定 的 期 限 ) 之 前 
完成 其 执行 并 且 没 有 抛 出 异常 时 ， 该 方法 返回 Callable 任 务 列表 
中 第 一 个 任务 的 结果 。 如 果 超 时 ， 那 么 该 方法 抛 出 一 


个 TimeoutException 异 和 常 。 
关于 CompletionService 接 口 ， 我 们 介绍 下 述 方法 。 


。 poll() Wid: 我 们 用 到 了 该 方法 带 有 两 个 参数 的 版 本 ， 不 过 该 方 
法 还 有 一 个 不 带 参 数 的 版 本 。 从 内 部 数据 结构 来 看 ， 该 版 本 检索 并 
且 删 除 自 上 一 次 调用 pol1() 或 take() 方 法 以 来 下 一 个 已 完成 任务 
eae 如 条 没有 任何 任务 完成 ， 执 行 该 方法 将 返回 null 

。 take() 方 法 : 该 方法 和 前 一 个 方法 类 似 ， 只 不 过 如 果 没 有 任何 任 
务 完成 ， 它 将 休眠 该 线程 ， 直 到 有 一 个 任务 执行 完毕 为 止 。 








5.4 ”小结 


在 本 章 中 ， 你 学 习 了 与 返回 结果 的 任务 打交道 时 用 到 的 几 种 机 制 。 这 些 
任务 都 基于 callable 接 口 ， 而 Callable 接 口中 声明 了 call() 方 法 。 该 
接口 是 一 个 由 call() 方 法 返回 的 类 进行 参数 化 的 接口 。 


当 你 在 执行 器 中 执行 一 个 Callable 任 务 时 ， 总 是 要 获得 Future 接 口 的 
一 个 实现 。 你 可 以 使 用 这 个 对 象 来 撤销 该 任务 的 执行 ， 通 过 该 对 象 来 知 
晓 任务 是 售 完 成 执行 ， 或 者 获得 cal1() 方 法 所 返回 的 结果 。 


你 可 以 通过 三 种 方式 将 Callable 任 务 发 送 给 执行 器 。 通 过 submit() 方 
法 可 以 发 送 一 个 任务 ， 而 且 将 很 快 获得 一 个 与 该 任务 相关 联 的 Future 
对 象 。 通 过 invokeA11() 方 法 ， 你 可 以 发 送 一 个 任务 列表 ， 并 且 当 所 有 
任务 都 完成 执行 之 后 获得 一 个 Future 对 象 列表 。 通 过 invokeAny() 方 
法 ， 你 可 以 发 送 一 个 任务 列表 ， 而 且 将 接收 到 第 一 个 执行 结束 且 没 有 抛 
《并 不 是 一 个 Future 对 象 ) 。 剩 余 其 他 任务 将 被 


Java 并 发 API 提 供 了 男 一 种 机 制 来 处 理 这 些 任务 类 型 。 这 种 机 制 

在 CompletionService 接 口中 定义 ， 并 且 

在 ExecutorCompletionSservice 类 中 实现 。 这 种 机 制 允许 你 将 任务 的 
执行 与 任务 结果 的 处 理解 厢 。CompletionService 接 口 在 内 部 使 用 了 
一 个 执行 器 ， 并 且 提 供 submit() 方 法 将 任务 发 送 给 
CompletionService 接 口 ， 还 提供 了 pol1() 方 法 和 take( ) 方 法 来 获取 
这 些 任务 的 结果 。 提 供 这 些 结果 的 顺序 与 任务 执行 完毕 的 顺序 相同 。 


你 还 学 会 了 如 何 通 过 两 个 真实 的 例子 来 实现 这 些 理念 。 首 先是 一 个 针对 
UKACD 数 据 集 的 最 佳 匹配 算法 ， 其 次 是 一 个 倒 排 索引 构造 程序 ， 它 用 
到 的 数据 集 包 含 了 从 维基 百科 上 抽取 的 10 万 多 份 有 关 电 影 信 息 的 文档 。 


下 一 章 ， 你 将 学 会 如 何以 一 种 划分 为 多 个 阶段 的 并 发 方式 来 执行 算法 。 
这 些 阶段 的 主要 特点 是 ， 你 必须 在 开始 下 一 阶段 之 前 将 当前 阶段 的 所 有 
任务 执行 完毕 。Java 并 发 API 提 供 了 Phaser 类 ， 可 使 这 些 算法 的 并 发 实 
现 更 加 方便 。 该 类 让 你 可 以 在 一 个 阶段 结束 时 同步 所 有 参与 本 阶段 工作 
J 因此 在 当前 阶段 执行 完毕 之 前 ， 任 何 任务 都 不 能 开始 下 一 阶段 
J 工作 。 


























第 6 章 运行 分 为 多 阶段 的 任 
务 : Phaser 类 











在 并 发 API 中 ， 最 重要 的 因素 就 是 它 为 编程 人 员 提 供 的 同步 机 制 。 同 步 
是 指 为 获得 预期 结果 而 对 两 个 或 多 个 任务 进行 的 协调 。 当 两 个 或 多 个 任 
务 按 预定 顺序 执行 时 ， 可 以 对 其 执行 进行 同步 ， 或 是 当 一 次 只 有 一 个 线 
程 可 以 执行 某 个 代码 段 或 者 修改 某 个 内 存 区 域 时 ， 可 以 同步 两 个 或 多 个 
任务 对 共享 资源 的 访问 。Java 9 并 发 API 提 供 了 大 量 同 步 机 制 ， 从 基本 的 
synchronized 关 键 字 和 Lock 接 口 以 及 它们 用 于 保护 临界 段 的 具体 实 

现 ， 到 更 高 级 的 CyclicBarrier 类 和 CountDownLatch 类 ， 支 持 同步 不 
同 任 务 的 执行 顺序 。 在 Java 7 中 ， 并 发 API 引 入 了 Phaser 类 。 该 类 提供 
了 一 种 强大 的 机 制 ( 分 段 器 ，〉， 将 任务 划分 为 多 个 阶段 执行 。 任 务 可 以 
要 求 Phaser 关 叶 答 是 到 所 有 其 他 参 忆 力 完 成 该 阶段 。 本 坚 将 涵 冀 下 述 
主题 。 











e Phaser 类 简介 。 
。 第 一 个 例子 : 关键 字 抽 取 算 法 。 
。 第 二 个 例子 : 遗传 算法 。 


6.1 Phaser 类 简介 


Phaser 类 是 一 种 同步 机 制 ， 用 于 控制 以 并 发 方式 划分 为 多 个 阶段 的 算 
法 的 执行 。 如 果 处 理 过 程 已 有 明确 定义 的 步骤 ， 那 么 必须 在 开始 第 二 个 

步骤 之 前 完成 第 一 步 的 工作 ， 以 此 类 推 ， 并 且 可 以 使 用 Phaser 类 实现 
该 过 程 的 并 发 版 本 。 Phaser 类 的 主要 特征 有 以 下 几 点 。 


。 分 段 器 〈phaser) 必须 知道 要 控制 的 任务 数 。Java 称 之 为 参与 者 的 
注册 机 制 。 参 与 者 可 以 随时 在 分 段 器 中 注册 

。 任务 完成 一 个 阶段 之 后 必须 通知 分 段 器 。 在 所 有 参与 者 都 完成 该 阶 

段 之 前 ， 分 段 器 将 使 该 任务 处 于 休眠 状态 。 

在 内 部 ， 分 段 器 保存 了 一 个 整数 值 ， 该 值 存储 分 段 器 已 经 进行 的 阶 








段 变更 数目 
+ SA PT DABEI A BA Java 将 这 一 过 程 称 为 参与 者 的 
证 


当 分 段 融 做 出 阶段 变更 时 ， 可 以 执行 定制 的 代码 。 

控制 分 段 器 的 终止 。 如 果 一 个 分 段 右 终止 了 ， 吕 不 再 接受 新 的 参与 
者 ， 也 不 会 进行 任务 之 间 的 同步 。 

通过 一 些 方 法 获得 分 段 器 的 参与 者 数目 及 其 状态 。 


6.1.1 参与 者 的 注册 与 注销 


如 前 所 述 ， 一 个 分 段 器 必须 知道 其 控制 的 任务 数目 ， 必 须知 道 正 在 执行 
Bice Pra gan at entree ae ra oer 





Java 将 此 过 程 称 作 参 与 者 的 注册 。 正 和 常情 况 下 ， 参 与 者 在 执行 开始 时 注 
册 ， 但 是 也 可 以 随时 注册 。 


可 以 采用 不 同方 式 注册 参与 者 ， 如 下 所 示 。 


。 创建 Phaser 对 象 时 : Phaser 类 提供 了 四 个 不 同 的 构造 函数 。 其 中 
常用 的 有 两 个 。 
o Phaser(): 该 构造 函数 创建 了 一 个 0 个 参与 者 的 分 段 器 。 
o Phaser(int parties): 该 构造 函数 创建 了 一 个 含有 给 定数 
目 参 与 者 的 分 段 句 。 





e 还 可 以 通过 下 述 方法 显 式 创建 。 
o bulkRegisterl(int parties): 同时 注册 给 定数 目的 新 参 
与 者 


o register(): 注册 一 个 新 参与 者 。 


分 段 器 控制 的 任务 完成 执行 时 ， 必 须 从 分 段 器 注销 。 如 果 不 这 样 做 ， 分 
段 器 就 会 在 下 一 阶段 变更 中 一 直 等 待 该 任务 。 注 销 一 个 参与 者 ， 可 以 使 
用 arriveAndDeregister() 方 法 。 使 用 该 方法 告知 分 段 器 该 任务 已 经 
完成 了 当前 阶段 ， 而 且 不 再 参与 下 一 阶段 。 


6.1.2 ”同步 阶段 变更 


分 段 器 的 主要 目的 是 使 那些 可 以 分 割 成 多 个 阶段 的 算法 以 并 发 方式 执 
行 。 所 有 任务 完成 当前 阶段 之 前 ， 任 何 任务 都 不 能 进入 下 一 阶 

段 。Phaser 类 提供 了 arrive()、arriveAndDeregister() 和 
arriveAndAwaitAdvance() 三 个 方法 通报 任务 已 经 完成 当前 阶段 。 如 
果 其 中 某 个 任务 没有 调用 上 述 三 个 方法 之 一 ， 那 么 分 段 器 对 其 他 参与 任 
务 的 阻塞 是 不 确定 的 。 继 续 进 入 下 一 阶段 需要 用 到 下 述 方法 。 


e arriveAndAwaitAdvance(): 任务 使 用 该 方法 同 分 段 器 通报 ， 表 
明 它 已 经 完成 了 当前 阶段 并 且 要 继续 下 一 阶段 。 分 段 器 将 阻 窄 该 任 
务 ， 直 到 所 有 参与 的 任务 已 调用 其 中 一 个 同步 方法 。 

e awaitAdvance(int phase): 任务 使 用 该 方法 向 分 段 器 通报 ， 如 
果 访 方法 参数 中 的 数值 和 分 段 器 的 实际 阶段 数 相 等 ， 就 要 等 待 当 前 
阶段 结束 ; 如 果 这 两 个 数值 不 相等 ， 则 该 方法 立即 返回 。 


6.1.3 ”其 他 功能 


在 所 有 参与 任务 都 完成 了 某 个 阶段 的 执行 之 后 ， 在 继续 下 一 阶段 之 
前 ，Phaser 类 执行 onAdvance() 方 法 。 该 方法 接收 如 下 两 个 参数 。 


e phase: 这 是 已 执行 完毕 阶段 的 编号 。 第 一 个 阶段 的 编号 为 0。 
。 registeredParties: 这 个 参数 代表 参与 任务 的 数目 。 


如 果 想 在 两 个 阶段 之 间 执 行 一 些 代 码 ， 例 如 ， 对 某 些 数据 进行 排序 或 者 
转换 ， 那 么 可 以 扩展 Phaser 类 并 重 载 该 方法 以 实现 自己 的 分 段 器 。 


分 段 嚣 可 以 有 以 下 两 种 状态 。 











。 激活 状态 : 创建 了 分 段 器 且 新 的 参与 者 注册 后 ， 分 段 器 将 进入 激活 
状态 ， 并 持续 这 种 状态 ， 直 到 其 终止 。 处 于 这 种 状态 时 ， 它 接受 新 
的 参与 者 并 像 之 前 所 述 那样 工作 。 

。 终止 状态 : onAdvance() 方 法 返回 true 值 时 ， 分 段 器 进入 这 种 状 
态 。 当 所 有 参与 者 都 注销 后 ，onAdvance() 方 法 将 返 
加 true 伍 。 











全 ”分 段 器 处 于 终止 状态 时 ， 新 参与 者 的 注册 无 效 ， 而 且 同 步 方 法 
会 立即 返回 。 


最 后 ，Phaser 类 提供 了 一 些 方 法 ， 获 取 分 段 如 状态 和 其 中 参与 者 的 信 
自 
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e getRegisteredParties(): 该 方法 返回 分 段 句 中 参与 者 的 数目 。 

e getPhase(): 该 方法 返回 当前 阶段 的 编号 。 

e getArrivedParties(): 该 方法 返回 已 经 完成 当前 阶段 的 参与 者 
的 数目 。 

e getUnarrivedParties(): 该 方法 返回 尚未 完成 当前 阶段 的 参与 
者 的 数目 。 

e isTerminated(): 如 果 分 段 器 处 于 终止 状态 ， 则 该 方法 返回 true 
值 ， 否 则 返回 false 值 。 





62 ”第 一 个 例子 : 关键 字 抽取 算法 


在 本 节 ， 你 将 使 用 分 段 器 实现 关键 字 抽 取 算 法 。 这 类 算法 的 主要 用 途 是 
从 文本 文档 或 者 文档 集合 《内 部 对 每 个 文档 做 了 更 好 的 定义 ) 中 抽取 单 
A 
是 升 。 


从 文档 集合 的 文档 中 抽取 关键 字 最 基本 的 算法 是 基于 TF-IDF 方 法 而 
且 该 方法 目前 仍然 被 广泛 使 用 ) ， 其 中 有 如 下 两 项 。 


© 术语 频次 (TF) 是 指 一 个 单词 在 茶 个 文档 中 出 现 的 次 数 。 

© 文档 频次 《DEF) 是 含有 东 个 单词 的 文档 的 数量 。 逆 文档 频次 
ADF) 用 于 度量 单词 所 提供 的 使 某 个 文档 区 别 于 其 他 文档 的 信 
恩 。 如 果 一 个 单词 很 常用 ， 那 么 它 的 IDE 值 会 很 低 ， 但 是 如 果 该 单 
词 仅 在 少数 几 个 文档 中 出 现 ， 那 么 它 的 IDF 值 会 很 高 。 


在 文档 d 中 单词 {的 TF-IDF 值 可 以 通过 下 述 公 式 计算 。 























N 
TF — IDF = TF x IDF = Ftd x log (>) 
nt 


上 述 公 式 用 到 的 属性 其 解释 如 下 。 


e Fig 是 单词 在 文档 d 中 出 现 的 次 数 。 
。 是 集合 中 文档 的 数目 。 
。n 是 含有 单词 t 的 文档 的 数目 。 


为 获取 文档 的 关键 字 ， 可 以 选用 具有 较 高 TF-IDF 值 的 单词 。 
要 实现 的 算法 将 通过 执行 下 述 阶 段 计 算 文档 集合 中 的 最 佳 关 键 字 。 


。 阶段 1: 解析 所 有 文档 并 且 抽 取 所 有 单词 的 DF 值 。 请 注意 ， 只 有 解 
析 了 所 有 文档 才 可 以 获得 准确 值 。 

。 阶段 2: 计算 所 有 文档 中 单词 的 TF-IDF 值 。 为 每 个 文档 选择 10 个 关 
键 字 (TF-IDF 值 评价 最 高 的 10 个 单词 )。 

。 阶段 3: 获得 一 个 最 佳 关 键 字 列表 。 这 个 列表 中 的 单词 应 该 能 够 代 











表 大 多 数 文档 的 关键 字 。 


为 了 测试 算法 ， 将 使 用 有 关 电 影 信 息 的 维基 百科 页 面 作为 文档 集合 。 该 
集合 与 第 5 章 中 用 过 的 集合 相同 ， 由 100 673 个 文档 组 成 。 我 们 将 每 个 维 
基 白 科 页 面 转换 成 一 个 文本 文件 ， 可 以 随 本 书 配 僚 的 资源 下载 该 文档 集 


Ho 











你 将 实现 本 算法 的 两 个 版 本 : 基础 串 行 版 本 和 使 用 Phaser 类 的 并 发 版 

本 。 在 此 之 后 ， 我 们 将 比较 两 个 版 本 的 执行 时 间 ， 以 验证 并 发 处 理 能 够 
带 来 更 好 的 性 能 。 

6.2.1 公共 类 

该 算法 的 两 个 版 本 具有 一 些 通用 功能 ， 用 于 解析 文档 以 及 存储 有 关 文 

档 、 关 键 字 和 单词 的 信息 。 这 样 的 公共 类 有 如 下 几 项 。 


e Document: 用 于 存放 含有 文档 以 及 构成 文档 的 单词 的 文件 名 。 
e Word: 用 于 存放 单词 字符 串 和 度量 该 单词 的 指标 CTF、DEF 和 TF- 
IDF) 。 
和 
量 。 
e DocumentParser 类 : 用 于 抽取 某 个 文档 的 单词 。 
下 面 详细 介绍 一 下 这 些 类 。 
01. Word 类 
Word 类 存放 了 有 关 某 个 单词 的 信息 。 这 些 信息 包括 整个 单词 以 及 影 
啊 它 的 措施 ， 也 束 是 它 在 某 个 文档 中 的 TF 值 ， 全 局 DF 值 ， 以 及 其 
最 终 的 TF-IDF 值 。 


该 类 实现 了 Comparable 接 口 ， 因 为 要 对 单词 数组 进行 排序 ， 以 获 
得 具有 较 高 TF-IDF 值 的 单词 。 相 关 代 码 如 下 。 


public class Word implements Comparable<Word> { 


然后 ， 声 明 该 类 的 属性 并 且 实 现 获 取 和 设置 这 些 属 性 的 方法 在 此 
未 给 出 ) 。 


02. 


private String word; 
private int tf; 


private int df; 
private double tfIdf; 





我 们 还 实现 了 其 他 一 些 有 用 的 方法 ， 如 下 所 示 。 


。 该 类 的 构造 函数 ， 对 word〈 接 收 作为 参数 的 单词 》 和 df 属性 
( 取 值 为 1) 进行 了 初始 化 。 

e addTf() 方 法 ， 用 于 增加 tf 属性 的 值 。 

e merge() 方 法 ， 接 收 一 个 Nord 对 象 作为 参数 ， 对 来 自 两 个 不 同 
文档 的 同一 单词 进行 合并 。 将 两 个 Nord 对 象 的 tf 属性 值 和 df 
属性 值 相 加 。 


然后 ， 实 现 了 setDf() 方 法 的 一 个 特殊 版 本 。 该 方法 接收 df 属性 值 
接收 集合 中 文档 的 总 数 ， 然 后 计算 得 出 tfIdf 属 性 的 


public void setDf(int df, int N) { 
this.df = df; 


tfIdf = tf * Math.log(Double.valueOf(N) / df); 
} 





最 后 ， 实 现 了 compareTo() 方 法 ， 并 希望 按照 tfIdf 属 性 值 从 高 到 
底 的 顺序 对 单词 进行 排序 。 


@Override 
public int compareTo(Word o) { 


return Double.compare(o.getTfidf(), this.getTfIdf()); 


} 
} 





Keyword 类 


Keyword 类 存放 了 关于 关键 字 的 信息 。 该 信息 包括 完整 的 单词 以 及 
将 该 单词 作为 关键 字 的 文档 数 。 


与 Word 类 一 样 ， 之 所 以 该 类 也 实现 了 Comparable 接 口 ， 是 因为 将 
对 一 个 关键 字数 组 进行 排序 以 获取 最 佳 关 键 字 。 


03. 


public class Keyword implements Comparable<Keyword> { 


然后 ， 声 明 该 类 的 属性 并 且 实 现 相应 的 方法 设 定 和 返回 属性 值 〈 这 
些 在 此 未 给 出 ) 。 


private String word; 
最 后 ， 实 现 compareTo() 方 法 ， 和 希望 能 够 按照 文件 数量 由 多 到 小 的 
顺序 排列 关键 字 。 


@Override 
public int compareTo(Keyword o) { 


return Integer.compare(o.getDf(), this.getDf()); 
} 
} 





Document% 


Document 类 存放 文档 集合 (请 记 住 集合 中 有 100 673 个 文档 ) 中 某 
个 文档 的 相关 信息 ， 其 中 包括 文件 名 和 构成 该 文档 的 单词 集合 。 访 
单词 集合 通常 也 被 称 作 该 文档 的 词汇 表 ， 采 用 HashMap 实 现 ， 它 将 
整个 单词 视 为 一 个 字符 串 并 作为 键 ， 将 一 个 Nord 对 象 作为 值 。 








public class Document { 
private String fileName; 
private HashMap <String, Word> voc; 


我 们 实现 了 一 个 构造 函数 创建 该 HashMap， 实 现 了 用 于 获取 和 设置 
文件 名 的 方法 ， 以 及 返回 文档 词汇 表 的 方法 〈 这 些 方 法 在 此 未 给 
H) 。 我 们 还 实现 了 一 个 同 词汇 表 添 加 单词 的 方法 。 如 果 单 词 不 在 
词汇 表 中 ， 则 将 其 加 入 词汇 表 。 


如 果 单 词 在 词汇 表 中 ， 则 增加 该 单词 的 tf 属性 值 。 我 们 使 用 了 voc 
对 象 的 computeIfAbsent() 方 法 。 如 果 单 词 不 在 词汇 表 中 ， 则 该 
方法 会 将 其 插入 到 HashMap 当 中 ， 然 后 用 addTf( ) 方 法 来 增加 tf 











public void addWord(String string) { 
voc.computelIfAbsent(string, k -> new Word(k)).addTf(); 


} 
} 


HashMap 类 并 不 是 同步 的 ， 但 是 仍然 可 以 在 并 发 应 用 程序 中 使 用 ， 

因为 不 同 任务 并 不 会 共享 该 类 。 一 个 Document 对 象 只 能 由 一 个 任 

因此 使 用 HashMap 类 时 并 不 会 导致 并 发 版 应 用 程序 中 的 苋 
AN o 


04. DocumentParser 类 


DocumentParser 类 读 取 一 个 文本 文件 的 内 容 并 且 将 其 转换 成 一 
个 Document 对 象 。 访 类 将 文本 分 割 成 在 干 单词 并 且 将 它们 存放 
在 Document 对 象 中 ， 进 而 生成 词汇 表 。 该 类 有 两 个 静态 方法 : 第 
一 个 是 parse() 方 法 ， 接 收文 件 路 径 字 符 串 ， 返 回 一 个 Document 
对 象 。 访 方法 打开 文件 并 且 逐 行 读 取 ， 使 用 parseLine() 方 法 将 每 
行 转换 成 一 个 单词 序列 ， 并 且 将 它们 存放 在 Document 类 。 














public class DocumentParser { 


public static Document parse(String path) { 
Document ret = new Document(); 
Path file = Paths.get(path) ; 
ret.setFileName(file.toString()); 


try (BufferedReader reader = 
Files.newBufferedReader(file)) { 


for(String line : Files.readAllLines(file)) { 
parseLine(line, ret); 


} catch (IOException x) { 
x.printStackTrace(); 


} 


return ret; 





parseLine() 方 法 接收 竺 解析 的 行 和 用 于 存放 单词 的 pocument 对 
象 作 为 参数 。 


首先 ， 该 方法 使 用 Normalizer 类 删除 每 一 行 的 重音 符号 ， 并 将 其 


转换 成 小 写 形 式 。 


private static void parseLine(String line, Document ret) { 


line = Normalizer.normalize(line, Normalizer.Form.NFKD) ; 
line = line.replaceAll("[*\\p{ASCII}]", ""); 
line = line.toLowerCase(); 





然后 ， 使 用 stringTokenizer 类 将 该 行 分 割 成 多 个 单词 ， 并 且 将 
这 些 单词 添加 到 Document 对 象 。 


private static void parseLine(String line, Document ret) { 














// 清理 字符 

line = Normalizer.normalize(line, Normalizer.Form.NFKD); 
line = line.replaceAll("[^\\p{ASCII}]", ""); 

line = line.toLowerCase(); 








分 词 程序 





for(String w: line.split("\\w+")) { 
ret.addwWord(w) ; 





6.2.2 $T% 


我 们 已 在 serialKeywordExtraction 类 中 实现 了 关键 字 算法 的 串 行 版 
本 。 该 类 定义 了 执行 测试 该 算法 的 main() 方 法 。 


第 一 步 是 声明 以 下 这 些 执行 算法 必需 的 内 部 变量 。 


两 个 用 于 度量 执行 时 间 的 Date 对 象 。 

一 个 存放 含有 文档 集合 的 目录 名 称 的 字符 串 。 

一 个 用 于 存放 有 关 文 档 集 合 文件 的 File 对 象 数 组 。 
一 个 用 于 存放 文档 集合 全 局 词汇 表 的 HashMap。 
一 个 用 于 存放 关键 字 的 HashMap。 

两 个 用 于 度量 有 关 执 行情 况 统计 数据 的 int 值 。 











下 面 给 出 了 这 些 变量 的 声明 。 


public class SerialKeywordExtraction { 


public static void main(String[] args) { 


Date start, end; 


File source = new File("data"); 

File[] files = source.listFiles(); 

HashMap<String, Word> globalVoc = new HashMap<>(); 
HashMap<String, Integer> globalKeywords = new HashMap<>(); 
int totalCalls = @; 

int numDocuments = @; 





start = new Date(); 


然后 ， 介 绍 该 算法 的 第 一 阶段 。 我 们 使 用 DocumentParser 类 的 
parse() 方 法 解析 所 有 文档 。 该 方法 返回 一 个 含有 文档 词汇 表 的 
Document 对 象 。 我 们 使 用 HashMap 类 的 merge() 方 法 将 文档 词汇 表 添 加 
到 全 局 词汇 表 。 如 果 单 词 不 存在 ， 则 将 它 插入 HashMap。 如 果 该 单词 已 
存在 ， 则 将 两 个 单词 对 象 合并 到 一 起 ， 并 且 对 Tf 属 性 和 Df 属 性 求 和 。 


if(files == null) { 
System.err.println("Unable to read the ‘data' folder"); 
return; 


for (File file : files) { 


if (file.getName().endswWith(".txt")) { 
Document doc = DocumentParser.parse (file. getAbsolutePath()) ; 
for (Word word : doc.getVoc().values()) { 

globalVoc.merge(word.getWord(), word, Word: :merge); 

} 
numDocuments++; 

} 

} 


System.out.println("Corpus: " + numDocuments + " documents."); 





在 此 阶段 之 后 ，globalVocHashMap 类 包含 了 文档 集合 的 所 有 单词 ， 以 
及 单词 的 全 局 TF (单词 在 文档 集合 中 出 现 的 总 次 数 》 和 DF 值 。 


然后 ， 引 入 该 算法 的 第 二 阶段 。 如 前 所 述 ， 我 们 将 使 用 TF-IDF 指 标 计 算 


每 个 文档 的 关键 子 。 必 须 再 次 解析 每 个 文档 以 生成 其 词汇 表 ， 因 为 内 存 
不 能 存放 构成 文档 集合 的 100 673 份 文档 的 词汇 表 。 如 果 处 理 的 文档 集 

合 规 模 较 小 ， 可 以 尝试 只 解析 这 些 文档 一 次 ， 并 且 将 全 部 文档 的 词汇 表 
存放 在 内 存 中 。 不 过 在 我 们 的 例子 中 ， 这 是 不 可 能 的 。 因 此 ， 再 次 解析 
全 部 文档 ， 并 且 使 用 globalVoc 中 存放 的 值 更 新 每 个 单词 的 df 属性 。 我 
们 还 构造 了 一 个 含有 文档 中 所 有 单词 的 数组 。 


for (File file : files) { 
if (file.getName().endswWith(".txt")) { 
Document doc = DocumentParser.parse(file.getAbsolutePath()); 
List<Word> keywords = new ArrayList<>( doc.getVoc().values()); 


int index = @; 

for (Word word : keywords) { 
Word globalWord = globalVoc.get(word.getWord()) ; 
word.setDf(globalWord.getDf(), numDocuments) ; 

} 


现在 ， 有 关键 字 列 表 ， 其 中 含有 文档 中 所 有 单词 以 及 计算 得 出 的 TF-IDF 
值 。 使 用 Collections 类 的 sort() 方 法 对 该 列表 排序 ， 具 有 较 高 TF- 
IDF 值 的 单词 排 在 前 面 。 然 后 ， 我 们 获取 该 列表 中 的 前 10 个 单词 ， 并 且 
使 用 addKeyword() 方 法 将 其 存放 在 globalKeywordsHashMap 中 。 


选择 排名 前 10 的 单词 并 没有 特殊 原因 。 其 他 供 选 方案 也 可 以 尝试 ， 例 如 
某 一 比例 的 一 组 单词 或 者 TF-IDF 指 标 最 小 值 等 ， 看 看 它们 的 表现 情 
Hlo 














Collections.sort(keywords); 
int counter = @; 


for (Word word : keywords) { 


addKeyword(globalKeywords, word.getWord()); 
totalCalls++; 





最 后 ， 引 入 该 算法 的 第 三 阶段 。 将 globalKeywordsHashMap 转 换 成 一 
个 Keyword 对 象 列 表 ， 使 用 Collections 类 的 sort() 方 法 对 该 数组 进行 
排序 。 将 DF 值 较 高 的 关键 字 排 在 列表 的 前 面 ， 并 且 在 控制 台 输 出 前 100 








个 单词 。 
相关 代码 如 下 所 示 : 


List<Keyword> orderedGlobalKeywords = new ArrayList<>(); 

for (Entry<String, Integer> entry : globalKeywords.entrySet()) { 
Keyword keyword = new Keyword(); 
keyword.setWord(entry.getKey()); 
keyword.setDf(entry.getValue()); 
orderedGlobalKeywords.add( keyword) ; 


} 


Collections. sort(orderedGlobalKeywords) ; 


if (orderedGlobalKeywords.size() > 100) { 
orderedGlobalKeywords = orderedGlobalKeywords.subList(@, 100); 


} 
for (Keyword keyword : orderedGlobalKeywords) { 


System.out.println(keyword.getWord() + ": " + keyword.getDf()); 
} 


与 第 二 阶段 相同 ， 选 择 前 100 个 单词 没有 特殊 的 理由 。 也 可 以 答 试 其 他 
供 选 方案 。 


为 了 结束 main() 方 法 ， 在 控制 台 输 出 执行 时 间 和 其 他 统计 数据 。 








end = new Date(); 
System.out.println("Execution Time: " + (end.getTime() - 
start.getTime())); 
System.out.println("Vocabulary Size: " + globalVoc.size()); 
System.out.println("Keyword Size: " + globalKeywords.size()); 
System.out.println( "Number of Documents: ”+ numDocuments) ; 
System.out.println( "Total calls: " + totalCalls); 





SerialKeywordExtraction 类 还 包括 addKeyword() 方 法 ， 它 用 于 更 
新 globalKeywordsHashMap 类 中 某 个 关键 字 的 信息 。 如 果 该 单词 存 
在 ， 则 该 类 更 新 其 DF 值 ， 如 果 不 存 在 ， 则 将 其 插入 。 相 关 代 码 如 下 : 





private static void addKeyword(Map<String, Integer> 
globalKeywords, String word) { 
globalKeywords.merge(word, 1, Integer: :sum) ; 


} 
} 
6.2.3 ”并 发 版 本 
为 了 实现 本 例 的 并 发 版 本 ， 我 们 用 到 了 如 下 两 个 不 同 的 类 。 
e KeywordExtractionTasks 类 : 该 类 以 并 发 方式 实现 准备 计算 关键 
字 的 任务 。 这 些 任 务 将 作为 Thread 对 象 执行 ， 因 此 该 类 实现 了 


Runnable 接 口 。 
e ConcurrentKeywordExtraction 类 : 该 类 提供 main() 方 法 执行 算 


法 ， 


创建 、 局 动 任 务 ， 并 且 等 竺 任务 完成 。 


下 面 仔细 看 看 这 些 类 。 


01. KeywordExtractionTask2 


如 前 所 述 ， 该 类 实现 了 计算 最 终 单词 列表 的 任务 。 它 实现 了 
Runnable 接 口 ， 因 此 可 以 将 其 作为 一 个 Thread 线 程 执行 ， 而 且 其 
内 部 用 到 了 一 些 属性 ， 大 多 数 属性 所 有 任务 共享 。 





用 于 存放 全 局 词汇 表 和 全 局 关键 字 的 两 

个 ConcurrentHashMap 对 象 : 之 所 以 使 

用 ConcurrentHashMap 是 因为 这 些 对 象 将 被 所 有 任务 更 新 ， 

这 样 束 必须 采用 并 发 数据 结构 避免 范 争 条 件 。 

用 于 存放 文档 集合 文件 列表 的 两 个 文件 对 

象 ConcurrentLinkedDeque: 之 所 以 使 

用 ConcurrentLinkedDeque 类 是 因为 所 有 任务 都 将 同时 抽取 

《获取 或 删除 〉 该 列表 的 元 素 ， 因 此 必须 使 用 并 发 数据 结构 以 
避免 竞争 条 件 。 如 果 使 用 常规 List， 那 么 同一 File 对 象 会 被 

不 同 的 任务 解析 两 次 。 之 所 以 采用 两 

个 ConcurrentLinkedDeque 是 因为 必须 要 对 整个 文档 集合 解 

析 两 次 。 如 前 所 述 ， 通 过 从 数据 结构 中 抽取 File 对 象 解 析 文 档 
集合 。 因 此 ， 解 析 该 集合 时 ， 该 数据 结构 将 为 空 。 

用 于 控制 任务 执行 的 Phaser 对 象 : 如 前 所 述 ， 关 键 字 抽取 算 

法 按照 三 个 阶段 执行 。 在 所 有 任务 都 完成 上 一 阶段 之 前 ， 任 何 
任务 都 不 能 进入 下 一 阶段 。 使 用 Phaser 类 对 此 加 以 控制 。 否 














则 ， 将 会 得 到 不 一 致 的 结果 。 

。 最 后 阶段 必须 由 唯一 的 线程 执行 :将 使 用 布尔 值 区 分 主任 务 
与 其 他 任务 。 这 些 主任 务 将 执行 最 后 阶段 。 

。 集合 中 的 文档 总 数 : 需要 该 值 计算 TF-IDF 指 标 。 


我 们 引入 了 一 个 构造 函数 以 初始 化 所 有 属性 。 


public class KeywordExtractionTask implements Runnable { 


private ConcurrentHashMap<String, Word> globalVoc; 
private ConcurrentHashMap<String, Integer> globalKeywords; 


private ConcurrentLinkedDeque<File> concurrentFileListPhase1; 
private ConcurrentLinkedDeque<File> concurrentFileListPhase2; 


private Phaser phaser; 


private String name; 
private boolean main; 


private int parsedDocuments; 
private int numDocuments; 


public KeywordExtractionTask ( 

ConcurrentLinkedDeque<File> concurrentFileListPhase1, 

ConcurrentLinkedDeque<File> concurrentFileListPhase2, 

Phaser phaser, ConcurrentHashMap<String, Word> 
globalVoc, 

ConcurrentHashMap<String, Integer> globalKeywords, 
int numDocuments, String name, boolean main) { 

concurrentFileListPhase1 = concurrentFileListPhase1; 

concurrentFileListPhase2 = concurrentFileListPhase2; 

globalVoc = globalVoc; 

globalKeywords = globalKeywords; 

phaser = phaser; 

main = main; 

name = name; 

numDocuments = numDocuments; 





使 用 run( ) 方 法 实现 该 算法 分 为 三 个 阶段 。 首 先 ， 调 用 分 段 器 的 
arriveAndAwaitAdvance() 方 法 等 竺 其 他 任务 的 创建 。 所 有 任务 
都 会 同时 开始 执行 。 然 后 ， 正 如 在 该 算法 的 串 行 版 本 中 提 到 的 ， 解 
析 所 有 文档 并 且 构 建 globalvocConcurrentHashMap 类 ， 其 中 含 


有 所 有 单词 及 其 全 局 TF 值 和 DF 值 。 为 了 完成 第 一 阶段 ， 再 次 调 
用 arriveAndAwaitAdvance() 方 法 ， 在 第 二 阶段 开始 之 前 等 待 其 
他 任务 结束 。 





@Override 
public void run() { 
File file; 


// 第 一 阶段 

phaser.arriveAndAwaitAdvance( ) ; 

System.out.println(name + ": Phase 1"); 

while ((file = concurrentFileListPhasel.poll()) != null) { 
Document doc = DocumentParser.parse(file.getAbsolutePath()); 


for (Word word : doc.getVoc().values()) { 
globalVoc.merge(word.getWord(), word, Word: :merge) ; 
} 


parsedDocuments++; 


} 


System.out.println(name + ": " + parsedDocuments + 
" parsed."); 
phaser. arriveAndAwaitAdvance() ; 





正如 你 看 到 的 ， 为 获取 待 处 理 的 File 对 象 ， 使 用 了 
ConcurrentLinkedDeque 类 的 poll1() 方 法 。 该 方法 检索 并 且 删 
除 Deque 的 第 一 个 元 素 ， 这 样 下 一 个 任务 将 获取 不 同 的 文件 进行 解 
析 ， 并 且 没 有 文件 会 被 解析 两 次 。 


正如 在 该 算法 的 串 行 版 中 提 到 的 ， 第 二 阶段 计算 了 
globalKeywords 结 构 。 首 先 ， 计 算 每 个 文档 最 优 的 10 个 关键 字 ， 
然后 将 其 搬入 ConcurrentHashMap 类 。 该 代码 和 串 行 版 中 的 相 
同 ， 只 是 将 串 行 数据 结构 替换 为 并 发 数据 结构 。 











// 第 二 阶段 
System.out.println(name + ": Phase 2"); 
while ((file = concurrentFileListPhase2.poll()) != null) { 





Document doc = DocumentParser.parse(file.getAbsolutePath() ) ; 
List<Word> keywords = new ArrayList<>(doc.getVoc().values()); 


for (Word word : keywords) { 
Word globalWord = globalVoc.get(word.getWord()); 
word.setDf(globalWord.getDf(), numDocuments) ; 


} 


Collections.sort(keywords) ; 


if(keywords.size() > 10) keywords = keywords.subList(@, 10); 
for (Word word : keywords) { 
addKeyword(globalKeywords, word.getWord()); 
} 
} 
System.out.println(name + ": " + parsedDocuments + 
" parsed."); 





对 于 主任 务 和 其 他 任务 而 言 最 后 阶段 将 有 上 所 不 同 。 在 将 整个 文档 集 
合 中 的 100 个 最 佳 关 键 字 输 出 到 控制 台 之 前 ， 主 任务 使 用 Phaser 类 
的 arriveAndAwaitAdvance( ) 方 法 等 待 所 有 任务 的 第 二 阶段 结 
束 。 最 后 ， 使 用 arriveAndDeregister() 方 法 从 分 段 器 中 注销 。 


剩 下 的 任务 使 用 arriveAndDeregister() 方 法 标记 第 二 阶段 的 结 


束 、 从 分 段 器 注销 以 及 完成 其 执行 。 





当 所 有 的 任务 完成 工作 后 ， 都 将 从 分 段 器 中 注销 。 最 后 分 段 器 将 有 


0 个 参与 方 ， 并 且 将 进入 终止 状态 。 





if (main) { 
phaser. arriveAndAwaitAdvance() ; 


Iterator<Entry<String, Integer>> iterator = 
globalKeywords.entrySet().iterator(); Keyw 


orderedGlobalKeywords[] = new 


Keyword[globalKeywords.size() ]; 
int index = @; 
while (iterator.hasNext()) { 
Entry<String, AtomicInteger> entry = iterator.next(); 
Keyword keyword = new Keyword(); 
keyword.setwWord(entry.getKey()); 
keyword.setDf(entry.getValue().get()); 
orderedGlobalKeywords[ index] = keyword; 
index++; 


} 


System.out.println("Keyword Size: " + 
orderedGlobalKeywords. length) ; 


Arrays.parallelSort (orderedGlobalKeywords) ; 
int counter = 0; 


for (int i = ð; i < orderedGlobalKeywords.length; i++){ 
Keyword keyword = orderedGlobalKeywords[i]; 
System.out.println(keyword.getWord() + ": "+ 

keyword. getDf()); 
counter++; 
if (counter == 100) { 
break; 

} 

} 

} 


phaser.arriveAndDeregister(); 


System.out.println("Thread " + name + " has finished."); 


} 





02. ConcurrentKeywordExtraction 类 


ConcurrentKeywordExtraction 类 初始 化 共享 对 象 、 创 建 任务 、 
执行 任务 并 且 等 待 任务 结束 。 它 实现 的 main() 方 法 可 以 接收 可 选 
参数 。 默 认 情 况 下 ， 执 行 的 任务 数 由 Runtime 类 的 
availableProcessors() 方 法 确定 ， 该 方法 返回 可 供 Java 虚 拟 机 
(Java virtual machine, JVM) 使 用 的 硬件 线程 数 。 如 果 接 收 到 一 
个 参数 ， 那 么 束 将 其 转换 成 一 个 整 型 值 ， 并 且 将 其 用 作 可 用 处 理 器 
数量 的 乘 数 ， 以 确定 将 创建 的 任务 数 。 


首先 ， 初 始 化 所 有 必要 的 数据 结构 和 参数 。 为 了 填充 这 两 

个 ConcurrentLinkedDeque 结 构 ， 我 们 使 用 File 类 的 
listFiles() 方 法 获取 一 个 File 对 象 数 组 ， 其 中 含有 txt 后 级 的 文 
fF 





还 可 以 使 用 不 带 参 数 的 构造 函数 创建 Phaser 对 象 ， 这 样 所 有 的 任 
务必 须 在 分 段 器 中 进行 显 式 注 册 。 相 关 代码 如 下 : 





public class ConcurrentKeywordExtraction { 


public static void main(String[] args) { 
Date start, end; 
ConcurrentHashMap<String, Word> globalVoc = new 


ConcurrentHashMap<>(); 
ConcurrentHashMap<String, Integer> globalKeywords = new 


ConcurrentHashMap<>(); 


start = new Date(); 
File source = new File("data"); 
File[] files = source.listFiles(f -> 
f.getName().endsWith(".txt")); 
if (files == null) { 
System.err.println("The ‘data’ folder not found!"); 
return; 
} 
ConcurrentLinkedDeque<File> concurrentFileListPhase1 = new 
ConcurrentLinkedDeque<>(Arrays.asList(files) ); 
ConcurrentLinkedDeque<File> concurrentFileListPhase2 = new 
ConcurrentLinkedDeque<>(Arrays.asList(files) ); 


int numDocuments = files.length(); 
int factor = 1; 
if (args.length > 6) { 

factor = Integer.valueOf(args[@]); 
} 


int numTasks = factor * 
Runtime.getRuntime().availableProcessors(); 
Phaser phaser = new Phaser(); 


Thread[] threads = new Thread[numTasks]; 
KeywordExtractionTask[] tasks = new 
KeywordExtractionTask[numTasks]; 





然后 ， 将 创建 的 第 一 个 任务 其 主 参数 置 为 tue， 其 他 任务 的 主 参数 
置 为 false。 每 个 任务 创建 完毕 后 ， 我 们 使 用 Phaser 类 的 
register() 方 法 在 分 段 器 中 注册 一 个 新 的 参与 方 ， 如 下 所 示 : 


for (int i = @; i < numTasks; i++) { 
tasks[i] new KeywordExtractionTask(concurrentFileListPhase1, 
concurrentFileListPhase2, phaser, globalVoc, 
globalKeywords, concurrentFileListPhase1.size(), 


"Task" + i, i==0); 
phaser.register() ; 
System.out.println(phaser.getRegisteredParties() + " 
tasks arrived to the Phaser."); 





然后 ， 创 建 并 局 动 运行 该 任务 的 线程 对 象 ， 并 且 等 待 其 结束 。 





for (int i = @; i < numTasks; i++) { 
threads[i] = new Thread(tasks[i]); 
threads[i].start(); 


} 


for (int i = ð; i < numTasks; i++) { 


try { 
threads[i].join(); 
} catch (InterruptedException e) { 
e.printStackTrace(); 
} 
} 


最 后 ， 在 控制 台 输 出 有 关 执 行情 况 的 统计 结果 ， 包 括 执 行 时 间 。 





System.out.println("Is Terminated: " + phaser.isTerminated()); 


end = new Date(); 
System.out.println("Execution Time: " + (end.getTime() - 
start.getTime())); 


System.out.println( "Vocabulary Size: " + globalVoc.size()); 
System.out.println( "Number of Documents: ”+ numDocuments) ; 





6.2.4 ”对 比 两 种 解决 方案 


比较 一 下 关键 字 抽 取 算 法 的 串 行 版 和 并 发 版 。 为 测试 该 算法 ， 采 用 了 含 
有 100 673 份 文档 的 文档 集合 。 


我 们 使 用 JMH 框 架 执 行 算 例 ， 它 允许 在 Java 中 实现 微型 基准 测试 。 使 用 
面向 基准 测试 的 框架 是 很 好 的 解决 方案 ， 因 为 可 以 直接 使 

用 currentTimeMillis() 或 nanoTime() 这 样 的 方法 度量 时 间 。 在 两 种 
不 同 的 架构 上 分 别 执行 这 些 算 例 10 次 。 


。 一 台 计 算 机 配置 了 Intel Core i5-5300 处 理 器 、Windows 7 操作 系统 和 
16GB 的 RAM。 访 处理 右 有 两 个 核 且 每 个 核 可 以 执行 两 个 线程 ， 这 
样 就 有 四 个 并 行 线程 。 

。 另 一 台 计 算 机 配置 了 AMD A8-640 处 理 器 、Windows 10 操 作 系 统 和 
8GB 的 RAM。 该 处 理 器 有 四 个 核 。 
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可 以 得 出 如 下 结论 。 


。 在 两 种 架构 中 ， 相 对 于 串 行 版 而 言 ， 并 发 版 算法 的 性 能 有 所 提升。 
。 如 果 使 用 的 任务 数 多 于 可 用 硬件 线程 数 ， 并 不 会 得 到 更 好 的 结果 。 
存在 些许 差别 ， 但 是 并 不 明显 。 


过 计算 加 速 比 对 比 该 算法 的 并 发 版 本 和 串 行 版 本 ， 如 下 所 示 : 


G Tserial 168.816 ) g7 
YAMD 一 7, = ea ee 
Tconcurrent 58.752 
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6.3 ”第 二 个 例子 : 遗传 算法 


遗传 算法 是 基于 上 自然 选择 原理 的 一 种 自 适 应 月 发 式 搜 索 算 法 ， 用 于 为 最 
优化 问题 和 搜索 问题 生成 优质 解决 方案 。 遗 传 算法 为 一 个 问题 提供 可 能 
的 解决 方案 ， 而 该 问题 被 称 为 个 体 或 者 表现 型 (phenotype) 。 每 个 个 体 
都 由 一 组 称 作 染色 体 的 属性 描述 。 通 常 ， 个 体 都 由 一 个 位 序列 表示 ， 不 
过 也 可 以 选择 更 加 适合 具体 问题 的 描述 方法 。 


你 还 需要 一 个 适应 度 函 数 ， 用 来 确定 茶 个 方案 的 优 劣 。 遗 传 算法 的 主要 
目标 是 查找 一 个 能 够 使 该 函数 最 大 化 或 者 最 小 化 的 解决 方案 。 


遗传 算法 从 问题 的 可 能 方案 集合 开始 。 这 个 可 能 方案 的 集合 被 称 作 种 
群 。 该 初始 集合 可 以 随机 生成 或 使 用 茶 种 局 发 函数 获得 更 好 的 初始 解决 


方案 。 


一 旦 有 了 初始 种 群 ， 可 以 局 动 一 个 含有 三 个 阶段 的 大 代 过 程 。 该 迭代 过 
程 的 每 一 步 称 作 一 代 。 每 一 代 有 如 下 三 个 阶段 。 


法 振 ， 可 以 在 各 群 中 选择 更 好 的 个 体 ， 这 些 个 体 在 适应 度数 中 上 
XIIIA. 

交叉 :对 前 一 步 选 定 的 个 体 进行 交叉 ， 以 生成 构成 新 一 代 的 新 个 
体 。 这 种 操作 需要 两 个 个 体 参与 并 且 生 成 两 个 新 的 个 体 。 实 现 这 种 
操作 依赖 于 要 解决 的 问题 ， 以 及 所 选择 的 个 体 的 描述 情况 。 

突变 ， 可 以 应 用 突变 运算 符 更 改 某 个 体 的 值 。 通 常 ， 只 可 以 对 极 少 
量 的 个 体 执行 该 操作 。 虽 然 突变 是 一 项 对 于 查找 优质 解决 方案 非常 
重要 的 操作 ， 但 是 并 不 应 使 用 该 操作 简化 本 节 的 例子 。 


满足 结束 标准 前 ， 可 以 重复 以 上 操作 。 结 束 标准 可 为 以 下 几 项 。 


固定 的 代 的 数目 

适应 度 函 数 设置 的 预定 值 

找到 了 满足 预定 标准 的 解决 方案 
时 间 限 制 

手动 停止 


通常 ， 将 自己 在 上 述 过程 中 找到 的 最 佳 个 体 在 种 群 外 部 储存 起 来 。 该 个 




















体 将 成 为 算法 所 建议 的 解决 方案 ， 而 且 通 常 它 将 成 为 较 好 的 解决 方案 ， 
因为 还 要 产生 新 的 一 代 。 


本 节 将 实现 一 个 遗传 算法 解雇 车 名 的 旅行 商 问 题 (TSP) 。 在 该 问题 
中 ， 有 一 个 城市 集合 和 它们 之 间 的 距离 集合 ， 要 找 出 一 条 最 优 路 线 ， 即 
在 经 过 全 部 城市 的 同时 旅行 路 线 的 总 距离 最 短 。 与 其 他 例子 相同 ， 我 们 
实现 了 串 行 版 程序 和 使 用 Phaser 类 的 并 发 版 程序 。 应 用 于 TSP 问 题 的 遗 
传 算法 的 主要 特点 如 下 。 


。 个 体 : 一 个 描述 了 城市 电 历 顺序 的 个 体 。 
© 交叉 : 在 交叉 操作 之 后 创建 有 效 的 解决 方案 。 访 问 每 个 城市 的 次 数 
必须 只 为 一 次 。 

适应 度 函 数 : 该 算法 的 主要 目标 是 使 明 历 每 个 城市 的 总 距离 最 短 。 
结束 标准 : 将 按照 预定 数目 的 代 执 行 该 算法 。 


如 下 表 所 示 ， 有 四 个 城市 的 距离 矩阵 。 








这 意味 着 城市 2 到 城市 1 的 距离 为 7， 但 是 城市 1 到 城市 2 的 距离 为 11。 
(2,4,3,1) 可 以 为 一 个 个 体 ， 而 其 适应 度 函 数 为 2 到 4、4 到 3、3 到 1、1 到 2 
之 间 的 距离 之 和 ， 也 就 是 2+4+7+11=24。 


如 果 想 在 个 体 (1,2,3,4) 和 (1,3,2,4) 之 间 进 行 交 又， 那么 束 不 能 生成 个 体 
(12,2,4)， 因 为 这 样 将 访问 城市 2 两 次 。 可 以 生成 (12,4,3) 和 (1,3,4,2)。 


为 测试 该 算法 ， 使 用 了 City Distance 数 据 集中 的 两 个 例子 ， 分 别 是 
15 (lau15 dist) 个 城市 和 57 (kn57_dist) 个 城市 。 


6.3.1 公共 类 
这 两 个 版 本 都 用 到 了 以 下 三 个 公共 类 。 


e DataLoader 类 ， 用 于 从 某 个 文件 加 载 距离 矩阵 。 此 处 并 不 给 出 该 
类 的 代码 。 它 有 一 个 静态 方法 ， 接 收文 件 名 ， 返 回 一 个 含有 城市 之 
间距 离 的 ijnt[][] 和 窍 阵 。 距 离 存 放 在 一 个 CSV 文 件 中 在 原始 格式 
中 做 了 些许 变换 ) ， 这 样 很 容易 进行 转换 。 

e Individual 类 ， 该 类 存放 了 种 群 中 某 个 个 体 的 信息 《 即 针对 当前 
问题 的 可 能 解决 方案 ) 。 为 了 表示 每 个 个 体 ， 我 们 选择 了 一 个 整 型 
数值 的 数组 ， 它 存放 了 访问 不 同城 市 的 顺序 。 

e Geneticoperators 类 ， 该 类 实现 了 交叉 、 选 择 和 对 种 群 或 者 个 体 
的 评估 。 


下 面 看 看 Individual 类 和 GeneticOperators 类 的 详细 介绍 。 





01. Individual% 


该 类 存放 了 TSP 问 题 的 所 有 可 能 解 。 每 个 可 能 的 解 都 称 作 一 个 个 
体 ， 将 其 描述 称 作 染色 体 。 在 我 们 的 例子 中 ， 将 每 个 可 能 的 解 都 表 
示 为 一 个 整 型 数组 。 该 数组 包含 旅行 商 经 过 各 个 城市 的 顺序 。 该 类 
还 有 一 个 整数 值 ， 用 于 存放 适应 度 函 数 的 结果 。 代 码 如 下 : 


public class Individual implements Comparable<Individual> { 


private Integer[] chromosomes; 
private int value; 





我 们 有 两 个 构造 图 数 。 第 一 个 接收 必须 访问 的 城市 的 数量 作为 参 
数 ， 创 建 一 个 空 数组 。 男 一 个 构造 函数 接收 Individual 对 象 作 为 
BH, FFARR AYA, GOR AH: 





public Individual(int size) { 
chromosomes=new Integer[size]; 


} 


public Individual(Individual other) { 


02. 


chromosomes = other.getChromosomes().clone(); 
} 


a 0 
MAS 


@Override 
public int compareTo(Individual o) { 


return Integer.compare(this.getValue(), o.getValue()); 


} 


最 后 ， 还 引入 了 获取 和 设 定 这 些 属 性 的 方法 。 








Geneticoperators 类 


RETR, AACE SME SUS AaB. IEW FEAT 
开始 介绍 的 那样 ， 它 提供 了 进行 初始 化 、 选 择 、 交 又 和 评估 操作 的 
方法 。 我 们 将 仅 介 绍 该 类 提供 的 方法 而 非 它们 如 何 实现 ， 以 避免 陷 
人 你 可 以 下 载 本 例 的 源 代 码 分 析 该 方法 的 实 
现 。 


该 类 提供 的 方法 有 如 下 几 个 。 





e initialize(int numberOfIndividuals, int size): 该 
方法 创建 了 一 个 种 群 。 该 种 群 的 个 体 数 

由 numberofIndividuals 参 数 确定 。 染 色 体 〈 本 例 中 就 是 城 
市 ) 的 数目 由 size 参 数 确定 。 该 方法 将 返回 一 个 Individual 
对 象 数 组 。 它 使 用 initialize(Integer[]) 方 法 初始 化 每 
个 Individual 对 象 。 

initialize(Integer[] chromosomes): 该 方法 以 随机 方式 
急 始 化 茶 一 个 体 的 染色 体 ， 生 成 合法 的 个 体 即 每 个 城市 内 访 
RI o 

selection(Individual[] population): 该 方法 实现 了 选 
择 操 作 ， 获 取 一 个 种 群 的 最 优 个 体 。 它 用 一 个 数组 返回 这 些 个 
体 。 访 数组 的 大 小 将 是 种 群 大 小 的 一 半 。 可 以 测试 其 他 标准 以 
确定 选 定 个 体 的 数目 。 使 用 最 适合 函数 选 定 这 些 个 体 。 
crossover(Individual[] selected, int 
numberOfIndividuals, int size): 该 方法 接收 一 代 中 被 


选 定 的 个 体 作 为 参数 ， 并 且 使 用 交叉 操作 生成 下 一 代 的 种 群 。 
下 一 代 的 个 体 数 目 将 由 同名 的 参数 
(EinumberOfIndividuals) 确定 。 个 体 的 染色 体 数目 将 
由 size 人 参数 确定 。 它 使 用 crossover (Individual, 
Individual，Individual，Individual) 方 法 依据 两 个 选 
定 个 体 生 成 两 个 新 个 体 。 
crossover(Individual parent1, Individual parent2， 
Individual individual1, Individual individual2): 
该 方法 实现 了 交叉 操作 ， 使 用 parent1 个 体 和 parent2 个 体 生 
成 下 一 代 的 ijndividual1 个 体 和 individual2 个 体 。 
evaluate(Individual[] population, int [][] 
distanceMatrix): 该 方法 使 用 参数 中 接收 的 距离 矩阵 ， 将 
适应 度 函 数 应 用 到 种 群 的 全 部 个 体 。 最 后 ， 该 方法 还 按照 解决 
方式 从 优 到 劣 的 顺序 对 种 群 进行 排序 ， 使 
用 evaluate(Individual，int[][]) 方 法 评估 每 个 个 体 。 
evaluate(Individual individual, int[][] 
distanceMatrix): WATER DYE RAUM H BSE MA 


借助 该 类 及 其 方法 ， 可 以 满足 实现 遗传 算法 解决 TSP 问 题 的 所 有 需 


6.3.2 上 串 行 版 本 
我 们 使 用 如 下 两 个 类 实现 该 算法 的 串 行 版 本 。 


e SerialGeneticAlgorithm 类 : 用 于 实现 该 算法 。 
e SerialMaink: 根据 输入 参数 执行 算法 并 且 上 度量 执行 时 间 。 


下 面 详细 分 析 一 下 这 两 个 类 。 





01. SerialGeneticAlgorithm 类 


“0 串 行 版 。 从 内 部 来 看 ， 它 用 到 了 如 下 四 个 属 





含有 所 有 城市 之 间距 离 的 距离 窍 阵 。 


。 代 的 数目 。 
。 种 群 中 的 个 体 数 。 


。 每 个 个 体 中 的 染色 体 数 目 。 
该 类 也 有 一 个 初始 化 所 有 属性 的 构造 函数 。 


private int[][] distanceMatrix; 


private int numberOfGenerations; 
private int numberOfIndividuals; 


private int size; 


public SerialGeneticAlgorithm(int[][] distanceMatrix, 
int numberOfGenerations, int numberOfIndividuals) { 
this.distanceMatrix = distanceMatrix; 
this.numberOfGenerations = numberOfGenerations; 
this.numberOfIndividuals = numberOfIndividuals; 
size = distanceMatrix. length; 








该 类 的 主 方法 是 calculate() 方 法 。 首 先 ， 使 用 initialize() 方 
法 来 创建 初始 种 群 。 然 后 ， 评 估 初 始 种 群 并 且 获 取 其 最 优 个 体 作 为 
算法 的 第 一 个 解 。 


public Individual calculate() { 
Individual best; 


Individual[] population = GeneticOperators. initialize( 
numberOfIndividuals, size); 


GeneticOperators.evaluate(population, distanceMatrix) ; 


best = population[@]; 





然后 ， 执 行 由 numberofGenerations 属 性 判定 的 循环 。 在 每 次 循 
环 中 ， 使 用 selection() 方 法 获取 选 定 的 个 体 ， 使 用 crossover() 
方法 计算 下 一 代 、 评 估 新 一 代 ， 而 且 如 果 新 一 代 的 最 优 解 优 于 到 目 
前 为 止 最 好 的 个 体 ， 那 么 蔡 换 该 个 体 。 循 环 结束 后 ， 返 回 最 优 个 体 
作为 算法 给 出 的 解 。 





for (int i = 1; i <= numberOfGenerations; i++) { 
Individual[] selected = 
GeneticOperators.selection(population) ; 
population = GeneticOperators.crossover(selected, 
numberOfIndividuals, size); 


GeneticOperators.evaluate(population, distanceMatrix) ; 
if (population[@].getValue() < best.getValue()) { 

best = population[@]; 
} 


} 


return best; 


} 





02. SerialMain 类 


该 类 针对 本 节 用 到 的 两 个 数据 集 执 行 遗 传 算法 ， 即 含有 15 个 城市 的 
1au15 和 含有 57 个 城市 的 kn57。 


main() 方 法 必须 接收 两 个 参数 。 第 一 个 参数 是 将 要 创建 的 代 的 数 
目 ， 而 第 二 个 参数 是 希望 每 一 代 应 有 的 个 体 数 目 。 


public class SerialMain { 
public static void main(String[] args) { 
Date start, end; 


int generations = Integer.valueOf(args[@]); 
int individuals = Integer.valueOf(args[1]); 





在 每 个 例子 中 ， 均 使 用 DataLoader 类 中 的 load() 方 法 加 载 距离 矩 
阵 ， 创 建 serialGeneticALlgorith 对 象 ， 在 执行 calculate() 方 
法 的 同时 度量 时 间 ， 并 且 在 控制 台 输 出 执行 时 间 和 结果 。 





for (String name : new String[] { "lau15 dist", "kn57 dist" }) { 
int[][] distanceMatrix = DataLoader.load(Paths.get("data", 
name + ".txt")); 
SerialGeneticAlgorithm serialGeneticAlgorithm = new 
SerialGeneticAlgorithm(distanceMatrix, generations, 
individuals) ; 
start = new Date(); 
Individual result = serialGeneticAlgorithm.calculate(); 
end = new Date(); 
System.out.println ("=======================================");) 
System.out.println("Example:"+name); 
System.out.println("Generations: ”+ generations); 


System.out.println("Population: " + individuals); 
System.out.println( "Execution Time: ”+ (end.getTime() - 


start.getTime())); 
System.out.println("Best Individual: " + result); 
System.out.println( "Total Distance: " + result.getValue()); 
System.out.println ("=======================================")} 





6.3.3 ”并 发 版 本 
我 们 实现 了 遗传 算法 并 发 版 本 的 不 同类 ， 如 下 所 示 。 


e SharedData 类 存放 了 所 有 将 在 任务 之 间 共 享 的 对 象 。 
GeneticpPhaser 类 扩展 了 Phaser 类 并 且 重 载 了 它 的 onAdvance() 
方法 ， 以 便当 所 有 任务 都 完成 第 一 阶段 后 执行 代码 。 
ConcurrentGeneticTask 类 实现 了 那些 将 用 于 执行 遗传 算法 各 个 
阶段 的 任务 。 

ConcurrentGeneticAlgorithm 类 使 用 前 面 的 类 实现 遗传 算法 的 
并 发 版 本 。 
ConcurrentMain 类 将 在 两 个 数据 中 集 测 试 遗传 算法 的 并 发 版 本 。 
从 内 部 来 看 ，ConcurrentGeneticTask 类 将 执行 三 个 阶段 。 第 一 阶段 
是 选择 阶段 ， 而 且 只 能 由 一 个 任务 执行 。 第 二 个 阶段 是 交叉 阶段 ， 所 有 
的 任务 都 将 使 用 选 定 的 个 体 来 构建 新 的 一 代 。 而 最 后 一 个 阶段 是 评估 阶 
段 ， 所 有 任务 都 将 对 新 一 代 个 体 进 行 评 估 。 

让 我 们 详细 来 看 这 其 中 的 每 一 个 类 。 

01. SharedData 类 


如 前 所 述 ， 该 类 包括 由 多 任务 共享 的 所 有 对 象 。 其 中 包括 如 下 内 














容 
。 种 群 数组 ， 其 中 含有 茶 一 代 的 全 部 个 体 。 
。 精 选 数 组 ， 其 中 含有 精 选 的 个 体 。 
。 一 个 名 为 index 的 原子 整 型 变量 。 这 是 唯一 线程 安全 的 对 象 ， 
用 于 指明 一 个 任务 要 生成 或 处 理 的 个 体 的 索引 。 
所 有 各 代 中 的 最 优 个 体 ， 将 作为 算法 的 解 返 回 。 
。 距离 矩阵 ， 其 中 含有 城市 之 间 的 距离 。 








所 有 的 对 象 都 将 被 所 有 线程 共享 ， 但 我 们 只 需要 用 到 一 个 并 友 数 据 
结构 。index 是 唯一 被 所 有 任务 局 效 共 译 的 属性 。 其 余 对 象 ， 要 么 
仅 供 读 取 “《 例 如 距离 矩阵 ) ， 要 么 每 个 任务 将 访问 对 象 〈 例 如 种 群 
数组 和 精 选 数 组 ) 的 不 同 部 分 ， 并 不 需要 使 用 并 发 数据 结构 或 者 同 
步 机制 避 免 竞 争 条 件 。 





public class SharedData { 


private Individual[] population; 
private Individual selected[ ]; 
private AtomicInteger index; 
private Individual best; 

private int[][] distanceMatrix; 








该 类 还 含有 用 来 获取 和 设 定 这 些 属性 取 值 的 方法 。 
02. GeneticPhaser% 


我 们 需要 在 任务 的 阶段 变化 时 执行 代码 ， 因 此 必须 实现 自己 的 分 段 
器 并 且 重 载 onAdvance() 方 法 ， 在 所 有 的 参与 方 都 完成 某 个 阶段 且 
即将 开始 执行 下 一 阶段 时 执行 该 方法 。GeneticPhaser 类 就 实现 了 
这 样 一 个 分 段 堪 。 它 存储 了 需要 用 到 的 SharedData 对 象 ， 并 且 将 
其 作为 构造 函数 的 参数 之 一 。 








public class GeneticPhaser extends Phaser { 


private SharedData data; 


public GeneticPhaser(int parties, SharedData data) { 
super(parties); 
this.data=data; 

} 





onAdvance() Fri ke Ey BAS HT ESS A EH SST HY ata 
作为 参数 。 从 内 部 来 看 ， 该 分 段 器 用 整数 表示 阶段 编号， 每 次 阶段 
变化 时 该 值 都 会 按 顺 序 增长 。 相 反 ， 我 们 的 算法 只 有 三 个 阶段 ， 将 
被 多 次 执行 。 必 须 将 分 段 器 的 阶段 编号 转换 成 遗传 算法 的 阶段 编 
号 ， 这 样 才能 知道 任务 究竟 是 在 执行 选择 阶段 、 交 叉 阶 段 还 是 评估 
阶段 。 为 实现 这 一 目的 ， 我 们 计算 分 段 堪 的 阶段 编号 除 以 3 的 余 








03. 


数 ， 如 下 所 示 : 


protected boolean onAdvance(int phase, int registeredParties) { 
int realPhase=phase%3 ; 
if (registeredParties>®) { 
switch (realPhase) { 
case 0: 
case 1: 
data. getIndex().set(@); 
break; 
case 2: 
Arrays.sort(data.getPopulation()); 


if (data.getPopulation()[@].getValue() < 
data.getBest().getValue()) { 
data.setBest(data.getPopulation()[@]); 
} 


break; 


return false; 


} 


return true; 


} 


如 琳 余 数 为 0， 任 务 完成 了 选择 阶段 并 且 准 备 执行 交叉 阶段 。 使 用 0 
值 对 该 索引 对 象 进行 初始 化 。 


如 末 余 数 为 1， 任 务 完成 交叉 阶段 并 且 准 备 执行 评 信 阶段。 使 用 0 值 
来 初始 化 该 索引 对 象 。 


最 后 ， 如 果 余 数 为 2， 任 务 已 经 完成 了 评估 阶段 且 准 备 再 次 开始 选 
择 阶 段 。 我 们 基于 适应 度 函 数 对 种 群 进行 排序 ， 并 且 如 果 必 要 ， 还 
要 更 新 最 优 个 体 。 


请 注意 ， 这 种 方法 只 能 由 任务 中 一 个 独立 的 线程 执行 。 它 在 前 一 阶 
段 结 束 时 ， 由 最 后 一 个 任务 的 线程 执行 

(在 arriveAndAwaitAdvance( ) 调 用 的 内 部 ) 。 其 他 任务 将 休眠 
并 且 等 待 分 段 器 。 





ConcurrentGeneticTask 类 


该 类 实现 了 那些 协作 执行 遗传 算法 的 任务 。 这 些 任务 执行 了 算法 的 
三 个 阶段 〈 选 择 、 交 叉 和 评估 ) 。 选 择 阶 段 仅 由 一 个 任务 执行 〈 称 


为 主任 务 ) ， 而 所 有 任务 都 将 执行 剩 下 的 阶段 。 
从 内 部 来 看 ， 该 类 用 到 了 四 个 属性 。 
e 一 个 GeneticPhaser 对 象 ， 用 于 在 每 个 阶段 结束 时 进行 任务 同 


步 。 
e 一 个 SharedData 对 象 ， 用 于 访问 共享 数据 。 
。 必须 计算 的 代 的 数目 。 
。 用 于 表明 是 人 否 为 主任 务 的 布尔 标志 。 


所 有 属性 将 在 该 类 的 构造 沙 数 中 初始 化 。 


public class ConcurrentGeneticTask implements Runnable { 
private GeneticPhaser phaser; 
private SharedData data; 
private int numberOfGenerations; 
private boolean main; 


public ConcurrentGeneticTask(GeneticPhaser phaser, int 
numberOfGenerations, boolean main) { 
this.phaser = phaser; 
this.numberOfGenerations = numberOfGenerations; 
this.main = main; 
this.data = phaser.getData(); 





run( ) 方 法 实现 了 遗传 算法 的 逻辑 。 它 有 一 个 生成 指定 代 的 循环 。 
正如 前 面 提 到 的 ， 只 有 主任 务 会 执行 选择 阶段 。 其 他 任务 将 使 

用 arriveAndAwaitAdvance() 方 法 等 待 该 阶段 结束 ， 参 看 如 下 代 
码 。 


@Override 
public void run() { 


Random rm = new Random(System.nanoTime() ); 
for (int i = @; i < numberOfGenerations; i++) { 


if (main) { 
data.setSelected(GeneticOperators.selection(data 
.getPopulation())); 


} 


phaser .arriveAndAwaitAdvance(); 





第 二 阶段 是 交叉 阶段 。 使 用 在 SharedData 类 中 存放 的 
AtomicInteger 变 量 索 引 获得 种 群 数组 〈 每 个 任务 都 会 计算 ) 中 的 
下 一 个 位 置 。 如 前 所 述 ， 交 叉 操 作 生 成 了 两 个 新 的 个 体 ， 因 此 每 个 
任务 首先 在 种 群 数组 中 保留 两 个 位 置 。 为 达到 这 一 目的 ， 使 

用 getAndAdd(2) 方 法 返回 变量 的 实际 值 ， 并 且 按 照 两 个 单位 的 步 
长 递增 其 取 值 。 a a A 因此 并 没有 
用 到 任何 同步 机 制 ， 这 是 原子 变量 的 固有 属性 。 参 看 下 面 的 代码 。 














// 交叉 阶段 
int individualIndex; 
do { 
individualIndex = data.getIndex().getAndAdd(2); 
if (individualIndex < data.getPopulation().length) { 
int secondIndividual = individualIndex++; 


int p1Index = rm.nextInt (data. getSelected().length) ; 
int p2Index; 
do { 
p2Index = rm.nextInt (data.getSelected().length) ; 
} while (piIndex == p2Index); 


Individual parent1 = data.getSelected() [p1Index]; 
Individual parent2 = data.getSelected() [p2Index]; 
Individual individual1 = data.getPopulation() 
[ individualIndex ] ; 
Individual individual2 = data.getPopulation() 
[ secondIndividual ]; 
GeneticOperators.crossover(parent1, parent2, 
individual1, individual2) ; 


} 


} while (individualIndex < data.getPopulation().length) ; 
phaser. arriveAndAwaitAdvance() ; 





新 种 群 的 所 有 个 体 生 成 之 后 ， 各 任务 将 使 
用 arriveAndAwaitAdvance() 方 法 同步 该 阶段 的 末尾 。 


最 后 阶段 是 评估 阶 RIs AE 
务 都 获取 该 变量 的 实际 值 ， 该 值 代 表 了 个 体 在 种 群 中 的 位 置 ， 并 且 
使 用 getAndIncrement( ) 值 增加 取 值 。 一 旦 对 所 有 个 体 的 评估 结 
束 ， 就 可 使 用 arriveAndAwaitAdvance( ) 方 法 同步 该 阶段 的 末 
尾 。 请 记 住 ， 所 有 任务 都 完成 该 阶段 后 ，GeneticPhaser 类 将 执行 
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排列 种 群 
j : 








数组 的 代码 ， 如 果 有 必要 ， 还 要 更 新 最 优 个 体 变 量 ， 如 下 


// 评估 阶段 
do { 
individualIndex = data.getIndex().getAndIncrement(); 
ndividualIndex < data.getPopulation().length) { 
eticOperators.evaluate(data.getPopulation() 
[individualIndex], data.getDistanceMatrix()); 


if (i 
Gen 


} 
} whi 


le (individualIndex < data.getPopulation().length); 


phaser .arriveAndAwaitAdvance(); 


} 


phaser. 


arriveAndDeregister(); 








最 后 ， 当 所 有 的 代 都 计算 完毕 后 ， 各 任务 使 
用 arriveAndDeregister() 方 法 表示 执行 完毕 ， 这 样 分 段 器 就 进 
入 终止 状态 。 


04. ConcurrentGeneticAlgorithm 类 


该 类 是 遗 
算 不 同 代 
代 的 数目 
阵 ， 如 下 


public cl 


private 
private 
private 
private 


public 


this. 
this. 
this. 
size= 


传 算法 的 外 部 接口 。 从 内 部 来 看 ， 该 类 创建 、 局 动 那 些 计 
的 任务 ， 并 且 等 竺 这些 任务 完成 。 该 类 用 到 了 四 个 属性 : 
E T 
ZN: 


ass ConcurrentGeneticAlgorithm { 


int numberOfGenerations; 
int numberOfIndividuals; 
int[][] distanceMatrix; 
int size; 


ConcurrentGeneticAlgorithm(int[][] distanceMatrix, int 

numberOfGenerations, int numberOfIndividuals) { 
distanceMatrix=distanceMatrix; 
numberOfGenerations=numberOfGenerations; 
numberOfIndividuals=numberOfIndividuals; 
distanceMatrix. length; 





calculate() 方 法 执行 遗传 算法 并 且 返 回 最 优 个 体 。 首 先 ， 它 使 

用 initialize() 方 法 创建 最 初 的 种 群 并 对 该 种 群 进 行 评估 ， 同 时 

ae a ERNER Daa 其 中 含有 所 有 必要 的 数据 ， 如 下 
ZN: 





public Individual calculate() { 


Individual[] population= 
GeneticOperators.initialize(numberOfIndividuals,size); 
GeneticOperators.evaluate(population, distanceMatrix) ; 


SharedData data=new SharedData(); 
data.setPopulation(population) ; 
data.setDistanceMatrix(distanceMatrix) ; 
data.setBest(population[@]); 


然后 ， 创 建 各 个 任务 。 使 用 计算 机 可 用 的 硬件 线程 数 作 为 将 要 创建 
的 任务 数 ， 该 数目 使 用 Runtime 类 的 availableProcessors() 方 
法 返回 。 我 们 还 创建 了 GeneticPhaser 对 象 同步 这 些 任 务 的 执行 ， 
如 下 所 示 : 





int numTasks=Runtime. getRuntime().availableProcessors() ; 
GeneticPhaser phaser=new GeneticPhaser(numTasks, data) ; 


ConcurrentGeneticTask[ ] tasks=new ConcurrentGeneticTask[numTasks ] ; 
Thread[] threads=new Thread[numTasks ]; 


tasks[@]=new ConcurrentGeneticTask(phaser, numberOfGenerations, 
true); 
for (int i=1; i< numTasks; i++) { 
tasks[i]=new ConcurrentGeneticTask(phaser, numberOfGenerations, 
false); 





然后 ， 创 建 Thread 对 象 执行 这 些 任 务 ， 局 动 任务 并 且 等 待 其 执行 
结束 。 最 后 ， 返 回 存放 于 ShareData 对 象 的 最 优 个 体 ， 如 下 所 示 : 














for (int i=@; i<numTasks; i++) { 
threads[i]=new Thread(tasks[i]); 
threads[i].start(); 


} 


for (int i=@; i<numTasks; i++) { 


try { 
threads[i].join(); 
} catch (InterruptedException e) { 
e.printStackTrace(); 
} 
} 


return data.getBest(); 


} 
} 





05. ConcurrentMain 类 


该 类 针对 本 节 用 到 的 两 个 数据 集 执行 遗传 算法 ， 即 含有 15 个 城市 的 
lau15 和 含有 57 个 城市 的 kn57。 该 类 的 代码 与 SerialMain 类 相 
似 ， 只 不 过 使 用 ConcurrentGeneticAlgorithm 而 

非 SerialGeneticAlgorithm。 


6.3.4 ”对 比 两 种 解决 方案 


现在 对 两 种 方案 进行 测试 ， 看 看 哪 一 种 具有 更 好 的 性 能 。 如 前 所 述 ， 使 
用 了 来 自 City Distance Datasets 的 两 个 数据 集 一 一 含有 15 个 城市 的 lau15 
和 含有 57 个 城市 的 kn57。 我 们 也 测试 了 不 同 规模 的 种 群 (100、1000 和 
10 000 个 个 体 ) ， 以 及 不 同 数目 的 代 〈10、100 和 1000) 。 


我 们 使 用 JMH 框 架 (请 查看 名 为 “Code Tools: jmh” 的 文章 〉 执行 算 例 ， 
这 样 可 以 在 Java 中 实现 微型 基准 测试 。 使 用 面 同 基 准 测 试 的 框架 是 很 好 
的 解决 方案 ， 因 为 可 以 直接 使 用 currentTimeMillis() 或 nanoTime() 
方法 度量 时 间 。 在 两 种 不 同 的 架构 上 分 别 执行 这 些 算 例 10 次 。 


。 一 台 计 算 机 配置 了 Intel Core i5-5300 处 理 器 、Windows 7 操作 系统 和 
16 GB 的 RAM。 该 处 理 器 有 两 个 核 ， 且 每 个 核 可 以 执行 两 个 线程 ， 
这 样 我 们 就 有 四 个 并 行 线程 。 

另 一 台 计 算 机 配置 了 AMD A8-640 处 理 器 、Windows 10 操 作 系 统 和 
8GB 的 RAM。 该 处 理 器 有 四 个 核 。 


Lau15 数 据 集 
第 一 个 数据 集 的 执行 时 间 如 下 《单位 : 毫秒 ) 。 














10 000 


THK | 并 发 
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。Kn57 数 据 集 
第 二 个 数据 集 的 执行 时 间 如 下 (单位 毫秒 )。 


种 群 
AMD 架 构 


i [a | wr [| WAR | a 
o fas20 fis ion [izase sour lor | 








种 群 


Intel 架 构 
wm [ee | Ww TE 














1000 417.38 |221.47 |4069.09 |2161.46 |41714.95 |21 858.51 
。 结论 


在 两 种 架构 上 ， 该 算法 针对 两 个 数据 集 的 表现 情况 相似 。 你 会 发 
现 ， 当 个 体 数 目 和 代 的 数目 都 较 少 时 ， 算 法 的 串 行 版 本 执行 时 间 较 
优 ， 而 当 个 体 数目 或 代 的 数目 增加 时 ， 并 发 版 本 将 会 有 更 好 的 吞吐 
量 。 以 代 的 数目 为 1000 且 个 体 数 目 为 10 000 的 kn57 数 据 集 为 例 ， 可 
得 出 加 速 比 如 下 。 





G T serial 83 131.09 D Ra 

AMD 一 一 =~ = - = £4.04 
T concurrent 29 417.48 

7 T erial 41 417.95 i 

OIntel = 一 一 一 一 = 1.91 





T concurrent 2 l 858 。 5 ] 


6.4 小结 


本 章 介 绍 了 Java 并 发 API 提 供 的 最 强大 的 同步 机 制 之 一 : Ba. TERN 
主要 目的 是 为 执行 分 为 多 阶段 的 算法 的 任务 提供 同步 。 在 所 有 任务 都 完 
成 上 一 阶段 之 前 ， 任 何 任务 都 不 能 开始 执行 下 一 阶段 。 


分 段 器 必须 知道 任务 要 进行 同步 的 任务 数量 。 必 须 使 用 构造 函 
数 、bulkRegister() 方 法 或 register() 方 法 在 分 段 器 中 注册 任务 。 


分 段 器 可 以 以 不 同方 式 同 步 任 务 。 最 常见 的 方式 是 使 

用 arriveAndAwaitAdvance() 方 法 告诉 分 段 器 ， 任 务 已 经 完成 了 一 个 
阶段 的 执行 ， 要 继续 执行 下 一 阶段 。 该 方法 将 休眠 该 线程 直到 剩 下 的 任 
务 都 完成 当前 阶段 为 止 。 不 过 ， 也 可 以 使 用 其 他 方法 同步 任 

务 。arrive( ) 方 法 用 于 通知 分 段 器 当前 阶段 已 经 完成 ， 但 是 不 会 等 待 
剩 下 的 任务 〈 使 用 该 方法 时 要 非常 小 心 ) 。arriveAndDeregister() 
方法 用 于 告知 分 段 器 当前 阶段 已 经 完成 ， 而 且 并 不 想 在 分 段 器 中 继续 等 
待 〈 通 常 是 因为 已 经 完成 了 任务 ) 。 最 后 ，awaitAdvance() 方 法 可 用 
于 等 待 当前 阶段 结 


通过 使 用 onAdvance( ) 方 法 ， 可 以 控制 阶段 变化 ， 并 且 在 所 有 任务 都 完 
成 当前 阶段 且 准 备 开 始 新 阶段 时 执行 代码 。 该 方法 在 两 个 阶段 执行 的 间 
隐 被 调用， 并 且 接 收 阶 段 的 编号 和 参与 者 在 分 段 器 中 的 编写 作为 参数 。 
你 可 以 扩展 Phaser 类 ， 并 且 重 载 该 方法 以 在 两 个 阶段 之 间 执 行 代码 。 


分 段 器 可 以 处 于 活动 和 终止 两 种 状态 。 同 步 任务 时 进入 活动 状态 ; 完成 
自己 的 工作 时 进入 终止 状态 。 所 有 参与 方 调 

用 arriveAndDeregister() 方 法 时 或 者 onAdvance() 方 法 返回 true 值 
(默认 情况 下 ， 总 是 返回 false) 时 ， 分 段 器 将 进入 终止 状态 。 

当 Phaser 类 处 于 终止 状态 时 ， 它 不 再 接收 新 的 参与 方 ， 而 且 同 步 方法 
将 立即 返回 。 


使 用 Phaser 类 实现 了 两 个 算法 : 关键 字 抽 取 算 法 和 遗传 算法 。 在 这 两 
与 算法 的 串 行 版 本 相 比 ， 并 发 版 本 在 吞吐 量 上 有 了 重要 的 增 



































下 一 草 将 介绍 如 何 使 用 另 一 个 Java 并 发 框架 解决 特殊 类 型 的 问题 。 这 就 


是 Fork/Join 框 架 ， 用 于 以 并 及 方式 执行 那些 可 以 采用 分 治 算 法 进行 求解 
的 问题 。 它 基于 一 个 采用 了 特殊 工作 狠 取 算法 的 执行 器 ， 这 种 算法 能 够 
使 执行 器 的 性 能 最 大 化 。 


第 7 章 优化 分 治 解 诀 方 案 : 
Fork/Joint Ze 


第 3~5 章 介绍 了 如 何 使 用 执行 器 这 种 机 制 来 改进 执行 大 量 并 发 任务 的 并 
发 应 用 程序 的 性 能 。Java 7 并 发 API 通 过 Fork/Join 框 架 引 入 了 一 种 特殊 的 
执行 器 。 该 框架 的 设计 目的 是 针对 那些 可 以 使 用 分 治 设计 范式 来 解雇 的 
问题 ， 实 现 最 优 的 并 发 解决 方案 。 本 章 将 介绍 以 下 主题 。 


Fork/Join 框 架 简介 。 
第 一 个 例子 : k-means RKF. 
第 二 个 例子 : 数据 筛选 算法 。 
第 三 个 例子 : 归并 排序 算法 。 


7.1 Fork/Join 框 架 简介 


执行 占 框 架 是 在 Java 5 中 引入 的 ， 它 提供 了 一 种 执行 并 发 任务 的 机 制 ， 
而 无 须 创 建 、 启 动 和 结束 线程 。 该 框架 采用 了 一 个 线程 池 ， 该 线程 池 可 
以 执行 你 发 送 给 执行 堪 的 任务 ， 并 且 针 对 多 个 任务 重用 这 些 线程 。 这 种 
机 制 为 程序 设计 人 员 提 供 了 如 下 便利 。 


。 并 发 应 用 程序 的 编程 更 加 简单 ， 因 为 不 再 需要 担心 线程 的 创建 。 

。 控制 执行 器 和 应 用 程序 所 使 用 的 资源 更 加 简单 。 你 可 以 创建 一 个 仅 
使 用 预定 数目 线程 的 执行 器 。 如 果 发 送 较 多 的 任务 ， 则 执行 器 会 将 
它们 先 存放 在 一 个 队列 中 ， 直 到 有 线程 可 用 为 止 。 

。 执行 器 通过 重用 线程 缩减 了 创建 线程 所 引入 的 开销 。 从 内 部 来 看 ， 
它 管理 了 一 个 线程 池 ， 重 用 线程 来 执行 多 个 任务 。 


分 治 算 法 是 一 种 非常 流行 的 设计 方法 。 为 了 采用 这 种 方法 解决 问题 ， 要 
将 问题 划分 为 较 小 的 问题 。 可 以 采用 递归 方式 重复 该 过 程 ， 直 到 需要 解 
决 的 问题 变 得 很 小 ， 可 以 直接 解决 。 必 须 很 小 心地 选择 可 直接 解决 的 基 
本 用 例 ， 问 题 规模 选择 不 当 会 导致 糟糕 的 性 能 。 这 种 问题 可 以 使 用 执行 
溃 解 决 ， 但 是 为 了 更 品 效 地 解决 问题 ，Java 7FRAPIS|A T Fork/Jointe 


AN © 


该 框架 基于 ForkJoinPool 类 ， 该 类 是 一 种 特殊 的 执行 器 ， 具 有 fork() 
方法 和 join( ) 方 法 两 个 操作 (以 及 它们 的 不 同 变 体 )， 以 及 一 个 被 称 
作 工 作 禄 取 算 法 的 内 部 算法 。 本 章 将 通过 实现 下 述 三 个 例子 ， 介 绍 
Fork/Join 框 架 的 基本 特征 、 局 限 性 和 组 件 。 


。 用 于 对 文档 集 进 行 聚 类 的 k-means 聚 类 算法 。 
© 一 个 获取 满足 特定 标准 的 数据 的 数据 饰 选 算法 。 
。 以 高 效 方式 对 大 型 数据 分 组 进行 排序 的 归并 排序 算法 。 

















7.1.1 Fork/Join 框 架 的 基本 特征 


如 前 所 述 ，ForkJoin 框 架 必须 用 于 解决 基于 分 治 方法 的 问题 。 必 须 将 原 
6 问题 划分 为 较 小 的 问题 ， 直 到 问题 很 小 ， 可 以 直接 解决 。 有 了 这 个 杠 
架 ， 待 实现 任务 的 主 方法 便 如 下 所 示 : 





if ( problem.size() > DEFAULT_SIZE) { 
divideTasks(); 
executeTask(); 
taskResults=joinTasksResult() ; 


return taskResults; 

} else { 
taskResults=solveBasicProblem(); 
return taskResults; 








该 方法 最 大 的 好 处 是 可 以 高 效 分 割 和 执行 子 任务 ， 并 且 获 取 子 任务 的 结 
果 以 计算 父 任 务 的 结果 。 该 功能 由 ForkJoinTask 类 提供 的 如 下 两 个 方 
法 支持 。 


© fork() 方 法 : 该 方法 可 以 将 一 个 子 任 务 发 送 给 Fork/Join 执 行 占 。 
。 join() 方 法 : 该 方法 可 以 等 每 一 个 子 任 务 执行 结束 后 返回 其 结 
Ro 


你 将 在 下 文 的 例子 中 看 到 ， 这 些 方 法 都 有 不 同 的 变 体 。Fork/Join 框 架 还 
有 另 一 个 关键 特性 ， 即 工作 窃取 算法 。 该 算法 确定 要 执行 的 任务 。 当 一 
个 任务 使 用 join() 方 法 等 竺 茶 个 子 任务 结束 时 ， 执 行 该 任务 的 线程 将 
会 从 任务 池 中 选取 男 一 个 等 待 执行 的 任务 并 且 开 始 执 行 。 通 过 这 种 方 
式 ，Fork/Join 执 行 器 的 线程 总 是 通过 改进 应 用 程序 的 性 能 来 执行 任务 。 


Java 8 在 Fork/Join 框 架 中 提供 了 一 种 新 特性 。 现 在 ， 每 个 Java 应 用 程序 都 
有 一 个 默认 的 ForkJoinPoo1， 称 作 公 用 池 。 可 以 通过 调用 静态 方法 
ForkJoinPool.commonPool() 获 得 这 样 的 公用 池 ， 而 不 需要 采用 显 式 
方法 创建 〈 尽 管 可 以 这 样 做 ) 。 这 种 玖 认 的 Fork/Join 执 行 器 会 目 动 使 用 
由 计算 机 的 可 用 处 理 器 确定 的 线程 数 。 可 以 通过 更 改 系统 属性 值 
(java.util.concurrent.ForkJoinPool.common.parallelism) 


来 修改 这 一 默认 行为 。 


Java API 的 有 些 功能 可 使 用 Fork/Join 框 架 来 实现 并 发 操作 。 例 
如 ，Arrays 类 中 的 parallelSort() 方 法 (可 以 以 并 行 方式 进行 数组 排 
Æ>) 以 及 Java 8 中 引入 的 并 行 流 (将 在 第 8 章 和 第 9 章 中 介绍 都 用 到 了 


该 框 染 。 


7.1.2 ”Fork/Join 框 架 的 局 限 性 











尽管 Fork/Join 框 架 可 以 用 于 解决 一 些 特定 类 型 的 问题 ， 但 是 解决 问题 时 
必须 要 考虑 到 它 的 局 限 性 ， 主 要 有 如 下 几 个 方面 。 


© 不 再 进行 细 分 的 基本 问题 的 规模 既 不 能 过 大 也 不 能 过 小 。 按 照 Java 
ee 的 说 明 ， 该 基本 问题 的 规模 应 该 介 于 100 到 10 000 个 基本 计 

步骤 之 间 。 

。 数据 可 用 前 ， 不 应 使 用 阻塞 型 VO 操作 ， 例 如 读 取 用 户 输 入 或 者 来 
目 网 络 套 接 字 的 数据 。 这 样 的 操作 将 导致 CPU 核 资源 空 ， 降 低 并 
行 处 理 等 级 ， 进 而 使 性 能 无 法 达到 最 佳 。 

© 不 能 在 任务 内 部 抛 出 校 验 异 常 ， 必 须 编写 代码 来 处 理 异 常 〈 例 如 ， 
陷入 未 经 校 验 的 RuntimeException) 。 在 后 面 的 例子 中 你 将 看 
到 ， 对 于 未 校 验 异 种 有 一 种 特殊 的 处 理 方式 。 


7.1.3 ”Fork/Join 框 架 的 组 件 
Fork/Join 框 架 包 括 四 个 基本 类 。 


e ForkJoinPool#: 该 类 实现 了 Executor 接 口 和 
ExecutorService 接 口 ， 而 执行 Fork/Join 任 务 时 将 用 到 Executor 
接口 。Java 提 供 了 一 个 默认 的 ForkJoinPool 对 象 ( 称 作 公 用 
池 ) ， 但 是 如 果 和 需要， 你 还 可 以 创建 一 些 构 造 浮 数 。 你 可 以 指定 并 
行 处 理 的 等 级 (运行 并 行 线程 的 最 大 数目 ) 。 默 认 情 况 下 ， 它 将 可 
用 处 理 器 的 数目 作为 并 发 处 理 等 级 。 

。ForkJoinTask 类 : 这 是 所 有 Fork/Join 任 务 的 基本 抽象 类 。 该 类 是 
一 个 抽象 类 ， 提 供 了 fork() 方 法 和 join() 方 法 ， 以 及 这 些 方法 的 
一 些 变 体 。 该 类 还 实现 了 Future 接 口 ， 提 供 了 一 些 方法 来 判断 任 
务 是 否 以 正常 方式 结束 ， 它 是 个 被 撤销 ， 或 者 是 否 抛 出 了 一 个 未 校 
验 异 常 。RecursiveTask 类 、RecursiveAction 类 和 
CountedCompleter 类 提供 了 compute( ) 抽 象 方法 。 为 了 执行 实际 
的 计算 任务 ， 该 方法 应 该 在 子 类 中 实现 。 

。 RecursiveTask 类 : 该 类 扩展 了 ForkJoinTask 
类 。RecursiveTask 也 是 一 个 抽象 类 ， 而 且 应 该 作为 实现 返回 结 
的 Fork/Join 任 务 的 起 点 。 

e RecursiveAction 类 : 该 类 扩展 了 ForkJoinTask 
类 。RecursiveAction 类 也 是 一 个 抽象 类 ， 而 且 应 该 作为 实现 不 
返回 结果 的 Fork/Join 任 务 的 起 点 。 

。 CountedCompleter 类 : 该 类 扩展 了 ForkJoinTask 类 。 该 类 应 作 


























为 实现 任务 完成 时 触及 男 一 任务 的 起 点 。 


7.2 ”第 一 个 例子 : kmeans 聚 类 算法 


k-means 案 类 算法 将 预 完 未 分 类 的 项 集 分 组 到 预定 的 K 个 禾 。 它 在 数据 
挖掘 和 机 器 学 习 领 域 非常 流行 ， 并 且 在 这 些 领 域 中 用 于 以 无 监督 方式 组 
织 和 分 类 数据 。 


每 一 项 通 音 都 由 一 个 特征 《或 者 说 属性 ) 同 量 〈 这 里 使 用 同 量 是 作为 一 
个 数学 概念 而 非 数 据 结构 ) 定义 。 所 有 项 都 有 相同 数目 的 属性 。 每 个 簇 
也 由 一 个 含有 同样 属性 数目 的 向 量 定 义 ， 这 些 属性 揪 述 了 所 有 可 分 类 到 
该 簇 的 项 。 该 向 量 叫 作 centroid。 例 如 ， 如 果 这 些 项 是 用 数值 型 向 量 
定义 的 ， 那 么 簇 束 定义 为 划分 到 该 簇 的 各 项 的 平均 值 。 


该 算法 基本 上 可 以 分 为 四 个 步 又 。 


。 初始 化 : FEA, BAER WRK IRAE, UA, PRAT 
以 随机 初始 化 这 些 同 量 。 

。 指派 : 然后 ， 你 可 以 将 每 一 项 划分 到 一 个 簇 中 。 为 了 选择 该 禾 ， 可 
以 计算 项 和 每 个 族 之 间 的 距离 。 可 以 使 用 欧 氏 距离 作为 距离 度量 方 
式 ， 计 算 代表 项 的 同 量 和 代表 簇 的 癌 量 之 间 的 距离 。 之 后 ， 你 可 以 
将 该 项 分 配 到 与 其 距离 最 短 的 簇 中 。 

。 更 新 : 一 旦 对 所 有 项 进行 分 类 之 后 ， 必 须 重新 计算 定义 每 个 艇 的 问 
量 。 如 前 所 述 ， 通 常 要 计算 划分 到 该 艇 所 有 项 的 回 量 的 平均 值 。 

。 结束 : 最 后 ， 检 查 是 舍 有 些 项 改变 了 为 其 指派 的 秘 。 如 果 存 在 变 
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该 算法 有 如 下 两 个 主要 局 限 。 


。 如 前 所 述 ， 如 末 随 机 初始 化 最 初 的 族 向 量 ， 那 么 对 同一 项 集 执行 两 
次 分 类 的 结果 是 不 同 的 。 

。 艇 的 数目 是 预先 定义 好 的 。 从 分 类 的 视角 来 看 ， 如 果 属 性 选择 得 不 
好 将 会 叶 致 糟 料 的 结 

尽管 如 此 ， 在 对 不 同类 型 的 项 做 聚 类 分 析 时 该 算法 仍然 三 受 欢迎 。 为 了 

测试 我 们 的 算法 ， 需 要 实现 一 个 应 用 程序 来 对 茶 个 文档 集 进行 聚 类 。 束 

文档 集 而 言 ， 第 5 章 已 经 介绍 了 有 关 电 影 信息 的 维基 百科 网 页 集 ， 本 章 








使 用 的 是 该 网 页 集 的 缩减 版 ， 仅 从 中 选取 了 1000 个 文档 。 为 了 表示 每 个 
文档 ， 必 须 使 用 向 量 空间 模型 表示 。 在 这 种 表示 方法 中 ， 每 个 文档 都 可 
以 用 数值 型 向 量 表示 ， 癌 量 的 每 个 维度 都 代表 一 个 单词 或 者 一 个 术语 ， 
es eee 它 定 义 了 该 单词 或 术语 在 该 文档 中 的 重要 
FJZ o 


使 用 向 量 空 间 模型 表示 一 个 文档 集 时 ， 向 量 维度 的 数量 和 整个 文档 集中 
不 同 单词 的 数量 相同 ， 这 样 癌 量 中 就 会 有 大 量 为 0 的 值 ， 因 为 每 个 文档 
都 不 会 包含 所 有 单词 。 你 可 以 使 用 一 种 在 内 存 中 更 优 的 表示 方式 来 避免 
表示 所 有 的 0 值 ， 从 而 节省 内 存 并 提升 应 用 程序 的 性 能 。 


在 我 们 的 例子 中 ， 选 择 了 术语 频次 - 逆 文 档 频 次 (CTE-IDF) 作为 定义 每 
而 且 将 具有 最 高 TF-IDF 值 的 50 个 词 作 为 代表 每 个 
文档 的 术语 。 


我 们 使 用 两 个 文件 : movies.words 文 件 和 movie.data 文 件 。movies.words 
文件 中 存放 了 癌 量 中 用 到 的 所 有 单词 ，movie.data 中 存放 了 每 个 文档 的 
表示 。movies.data 文 件 的 格式 如 下 。 



































10000202 ,rabona:23.639285765435567,1979:8.69314752937111,argentina:7.953798 
614698405, 1a:5.440565539075689, argentine:4.058577338363469, editor: 3.0401515 
284855267, spanish: 2.9692083275217134, image size:1.3701158713905104, narrator 
:1.1799670194306195, budget: @.286193223652206, starring: @.25519156764102785 ,c 
ast:@.2540127604060545,writer:@.23904044207902764, distributor: @.20430284744 


786784, cinematography :@.182583823735518, music: @.1675671228903468, caption:@. 
14545085918028047, runtime: 0.127767002869991, country :@.12493801913495534, pro 
ducer :@.12321749670640451, director :@.11592975672109682, links :@.079255823038 
12376, image: @.07786973207561361, external :0.07764427108746134, released:0.074 
47174080087617 , name: 0.07214163435745059, infobox :@.06151153983466272, film:0. 
035415118094854446 





其 中 ，16666262 是 文档 的 标识 符 ， 而 文件 其 余 的 部 分 都 按照 "单词 : 
tfxidf 值 ”的 格式 排列 。 


与 其 他 例子 一 样 ， 我 们 将 实现 串 行 版 和 并 发 版 ， 并 且 执 行 两 个 版 本 以 验 
证 Fork/Join 框 架 为 该 算法 带 来 的 性 能 提升 。 


7.2.1 公共 类 


串 行 版 和 并 发 版 有 一 些 共同 特征 ， 如 下 所 示 。 


e VocabularyLoader 类 : 这 个 类 用 于 加 载 文档 集中 构成 词汇 表 的 单 
词 列 表 。 

e Word2, Document% fllDocumentLoader2E: 这 三 个 类 用 于 加 载 
有 关 文 档 的 信息 。 在 串 行 版 和 并 行 版 算法 中 ， 这 些 类 几乎 没有 差 
别 | 。 

e。DistanceMeasure 类 : 该 类 用 于 计算 两 个 同 量 之 间 的 欧 氏 距离 。 

。DocumentCluster 类 : 该 类 用 于 存储 有 关 秘 的 信息 。 


下 面 详细 说 明 一 下 这 些 类 。 











01. VocabularyLoader 类 


如 前 所 述 ， 数 据 存放 在 两 个 文件 中 。 其 中 一 个 是 movies.words 文 

件 。 该 文件 存放 的 列表 含有 文档 中 用 到 的 所 有 

词 。VocabularyLoader 类 会 将 该 文件 转换 成 HashMap。 该 

HashMap 的 键 是 整个 单词 ， 而 其 值 为 一 个 代表 单词 在 列表 中 索引 位 

ee. 我 们 使 用 该 索引 来 判定 单词 在 表示 文档 的 向 量 空间 模 
4 中 的 位 置 。 


该 类 只 有 一 个 方法 ， 即 1oad()， 访 方法 接收 文件 路 径 为 参数 ， 并 
且 返 回 该 HashMap 。 











public class VocabularyLoader { 


public static Map<String, Integer> load (Path path) throws 
IOException { 
int index=@; 
HashMap<String, Integer> vocIndex=new HashMap<String, 
Integer>(); 
try(BufferedReader reader = Files.newBufferedReader (path) ){ 
String line = null; 


while ((line = reader.readLine()) != null) { 
vocIndex.put(line,index ); 
index++; 
} 
} 


return vocIndex; 





02. Word 类 、Document 类 和 DocumentLoader 类 


这 些 类 存储 了 将 在 算法 中 用 到 的 文档 的 所 有 人 信息。 首先，Nord 类 存 
放 了 一 个 文档 中 某 个 单词 的 信息 ， 这 包括 该 单词 的 索引 及 其 在 文档 
中 的 TF-IDF 值 。 该 类 仪 包括 这 些 属性 (分 别 是 int 型 和 double 

AY) ， 并 且 实 现 了 Comparable 接 口 来 根据 两 个 单词 的 TF-IDF 值 对 
它们 进行 排序 。 这 里 不 再 介绍 该 类 的 源 代码 。 


Document 类 存放 了 有 关 文 档 的 所 有 人 信息。 首先 ， 该 类 有 一 个 存放 

文档 中 单词 的 Word 对 象 数 组 ， 它 是 向 量 空间 模型 的 表示 形式 。 为 了 
节省 内 存 空间 ， 我 们 仅 存 储 文 档 中 用 到 的 单词 。 然 后 ， 访 类 还 有 一 
个 String 变 量 ， 用 于 表示 存放 文档 的 文件 名 。 最 后 ， 该 类 还 有 一 

个 DocumentCluster 对 象 ， 用 于 表示 与 该 文档 相关 的 艇 。 访 类 还 

包括 一 个 构造 函数 ， 用 于 初始 化 这 些 属性 和 方法 以 获取 和 设置 其 取 
值 。 我 们 仅 给 出 setCluster() 方 法 的 代码 。 在 本 例 中 ， 该 方法 将 
返回 一 个 布尔 值 ， 这 个 值 表 明 属 性 的 新 值 是 与 旧 值 相 同 ， 还 是 一 个 
新 值 。 我 们 将 用 该 值 判 定 是 否 应 该 停止 算法 。 




















public boolean setCluster(DocumentCluster cluster) { 
if (this.cluster == cluster) { 
return false; 
} else { 


this.cluster = cluster; 
return true; 
} 
} 





最 后 ，DocumentLoader 类 用 于 加 载 有 关 文 档 的 信息 。 它 含有 一 个 
静态 方法 1oad()， 该 方法 接收 文件 路 径 和 存放 词汇 表 的 HashMap 作 
为 参数 ， 返 回 一 个 Document 对 象 的 数组 。 该 方法 逐 行 加 载 文件 ， 
并 且 将 每 一 行 都 转换 成 为 一 个 Document 对 象 。 代 码 如 下 : 








public static Document[] load(Path path, Map<String, Integer> 
vocIndex) throws IOException{ 
List<Document> list = new ArrayList<Document>() ; 
try(BufferedReader reader = Files.newBufferedReader(path)) { 
String line = null; 
while ((line = reader.readLine()) != null) { 
Document item = processItem(line, vocIndex); 
list.add(item) ; 
} 


} 
Document[] ret = new Document[list.size()]; 
return list.toArray(ret); 





为 了 将 文本 文件 的 某 一 行 转换 成 一 个 Document 对 象 ， 可 以 使 
用 processItem() 方 法 。 


private static Document processItem(String line,Map<String, 
Integer> vocIndex) { 


String[] tokens = line.split(","); 
int size = tokens.length - 1; 


Document document = new Document(tokens[@], size); 
Word[] data = document.getData(); 


for (int i = 1; i < tokens.length; i++) { 
String[] wordInfo = tokens[i].split(":"); 
Word word = new Word(); 
word. setIndex(vocIndex. get (wordInfo[@])); 
word. setTfidf (Double. parseDouble(wordInfo[1])); 
data[i - 1] = word; 

} 

Arrays.sort(data) ; 

return document; 





如 前 所 述 ， 一 行 中 的 第 一 项 是 文档 的 标识 符 。 从 tokens[6] 中 获取 
该 标识 符 并 且 将 其 传送 给 Document 类 的 构造 函数 。 然 后 ， 对 于 
tokens 字 符 串 数组 中 剩 下 的 值 ， 将 其 再 次 分 割 ， 进 而 获得 每 个 单 
词 的 信息 ， 包 括 整 个 单词 及 其 TF-IDF 值 。 


. DistanceMeasurer 类 


RW HOC Sik CHI Ras) 之 间 的 欧 氏 距离 。 经 过 排序 之 
后 ， 单 词 数 组 中 的 单词 将 以 与 质心 数组 同样 的 顺序 存放 ， 但 是 会 缺 
少 其 中 一 些 单词 。 对 于 缺少 的 这 些 单 词 ， 假 设 其 TF-IDF 值 为 0， 这 
样 其 距离 就 是 质心 数组 中 对 应 值 的 平方 。 


public class DistanceMeasurer { 





public static double euclideanDistance(Word[] words，double[] 


centroid) { 
double distance = Q; 


int wordIndex = @; 
for (int i = ð; i < centroid.length; i++) { 
if ((wordIndex < words.length) (words[wordIndex].getIndex() 
== i)) { 
distance += Math.pow( (words[wordIndex].getTfidf() - 
centroid[i]), 2); 
wordIndex++;} 
} else { 
distance += centroid[i] * centroid[i]; 
} 
} 


return Math.sqrt(distance); 





04. DocumentCluster 类 





该 类 存放 算法 生成 的 每 个 秘 的 相关 信息 。 这 些 信息 包括 与 该 簇 相关 
联 的 所 有 文档 构成 的 列表 ， 以 及 代表 徐 的 同 量 的 质心 。 在 本 例 中 ， 
该 癌 量 的 维度 数目 与 词汇 表 中 单词 的 数目 相同 。 该 类 含有 两 个 属 

性 ， 一 个 对 这 两 个 属性 进行 初始 化 的 构造 冰 数 ， 以 及 获取 和 设置 这 
两 个 属性 值 的 方法 。 该 类 还 有 两 个 非常 重要 的 方法 ， 第 一 个 

是 calculateCentroid() 方 法 ， 该 方法 计算 艇 的 质心 作为 向 量 的 
平均 值 ， 而 这 些 同 量 代表 所 有 与 该 秘 相 关 的 文档 。 代 码 如 下 : 














public void calculateCentroid() { 


Arrays.fill(centroid, 0); 


for (Document document : documents) { 
Word vector[] = document.getData(); 


for (Word word : vector) { 
centroid[word.getIndex()] += word.getTfidf(); 
} 
} 


for (int i = @; i < centroid.length; i++) { 
centroid[i] /= documents.size(); 


| 
} 

第 二 个 方法 是 initialize() 方 法 ， 该 方法 接收 一 个 Random 对 象 作 
为 参数 ， 并 且 采 用 随机 数 来 初始 化 簇 向 量 的 质心 。 如 下 所 示 : 


public void initialize(Random random) { 
for (int i = ð; i < centroid.length; i++) { 


centroid[i] = random.nextDouble(); 





7.2.2 AFT has 

既然 已 经 讲述 了 应 用 程序 的 公共 特性 ， 下 面 看 看 如 何 实现 k-means 聚 类 
算法 的 串 行 版 本 。 我 们 将 用 到 两 个 类 : 用 于 实现 算法 的 SerialKMeans 
类 ， 以 及 实现 main() 方 法 来 执行 算法 的 SerialMain 类 。 


01. SerialKMeans 类 





serialKMeans 类 实现 了 k-means 聚 类 算法 的 串 行 版 本 。 该 类 的 主要 
方法 是 calculate() 方 法 ， 它 接收 如 下 参数 。 


。 Document 对 象 数 组 ， 它 存放 了 有 关 文 档 的 信息 。 
。 EAE MAYA AA o 
。 词汇 表 的 大 小 。 

。 用 于 随机 数 生 成 器 的 “种 子 ”。 


该 方法 返回 一 个 DocumentCluster 对 象 数组 。 每 个 复 都 有 一 个 与 
其 相关 的 文档 列表 。 首 先 ， 文 档 可 以 创建 一 个 由 clLusterCount 参 
数 确定 的 簇 的 数组 ， 并 且 使 用 initialize( ) 方 法 和 Random 对 象 对 
其 初始 化 ， 如 下 所 示 : 





public class SerialKMeans { 


public static DocumentCluster[] calculate(Document[] documents, 
int clusterCount, int vocSize, int seed) { 
DocumentCluster[] clusters = new DocumentCluster[clusterCount ] ; 


Random random = new Random(seed) ; 


for (int i = @; i < clusterCount; i++) { 


clusters[i] = new DocumentCluster(vocSize) ; 
clusters[i].initialize(random) ; 


} 
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止 。 最 后 ， 返 回 描述 了 文档 最 终 组 织 情况 的 复数 组 ， 如 下 述 代码 所 
ZN: 


boolean change = true; 


int numSteps = ©; 
while (change) { 
change = assignment(clusters, documents); 
update(clusters); 
numSteps++; 
} 
System.out.println("Number of steps: "+numSteps); 
return clusters; 





旨 派 阶段 的 工作 在 assignment() 方 法 中 实现 。 该 方法 接 

收 Document 对 象 数 组 和 DocumentCluster 对 象 数 组 作为 参数 。 对 
于 每 个 文 要 ， 该 方法 都 计算 其 与 所 有 艇 之 间 的 欧 氏 距离 ， 并 且 将 该 
文档 指派 到 距离 最 短 的 艇 。 该 方法 返回 一 个 布尔 值 ， 该 值 表明 从 当 
前 位 置 到 下 一 位 置 是 否 有 一 个 或 多 个 文档 改变 了 为 其 指派 的 徐 。 如 
以 下 代码 所 示 : 











private static boolean assignment(DocumentCluster[] clusters, Document 
documents) { 


boolean change = false; 


for (DocumentCluster cluster : clusters) { 
cluster.clearClusters(); 


} 


int numChanges = @; 

for (Document document : documents) { 
double distance = Double.MAX_VALUE; 
DocumentCluster selectedCluster = null; 
for (DocumentCluster cluster : clusters) { 


double curDistance = DistanceMeasurer.euclideanDistance 
(document.getData(), cluster.getCentroid()); 
if (curDistance < distance) { 
distance = curDistance; 
selectedCluster = cluster; 
} 
} 


selectedCluster.addDocument (document); 
boolean result = document.setCluster(selectedCluster); 
if (result) 

numChanges++; 


} 
System.out.println("Number of Changes: 


return numChanges > @; 


+ numChanges) ; 





更 新 阶段 在 update() 方 法 中 实现 。 该 方法 接收 带 有 簇 信 息 的 
DocumentCluster 对 象 数 组 作为 参数 ， 并 有 旦 直接 重新 计算 每 个 簇 
的 质心 。 


private static void update(DocumentCluster[] clusters) { 
for (DocumentCluster cluster : clusters) { 
cluster.calculateCentroid(); 





SerialMain 类 


SerialMain 类 中 含有 main() 方 法 ， 可 以 启动 对 k-means 算法 的 测 
试 。 首 先 ， 它 从 文件 加 载 数 据 (单词 和 文档 〉。 
public class SerialMain { 


public static void main(String[] args) { 
Path pathVoc = Paths.get("data", "“movies.words"); 


Map<String, Integer> vocIndex=VocabularyLoader.load(pathVoc) ; 
System.out.println( "Voc Size: "+vocIndex.size()); 


Path pathDocs = Paths.get("data", "movies.data"); 

Document[] documents = DocumentLoader.load(pathDocs, 
vocIndex); 

System.out.println("Document Size: "+documents. length) ; 





然后 ， 它 初始 化 要 生成 的 复数 以 及 随机 数 生 成 器 的 “种 子 ”。 如 果 它 
E 6 0 0 可 以 使 用 如 下 的 默认 


if (args.length != 2) { 
System.err.println("Please specify K and SEED"); 
return; 


} 
int K = Integer.valueof(args[6]); 


int SEED = Integer.valueOf(args[1]); 











， 局 动 算法 ， 上 度量 其 执行 时 间 ， 并 且 输 出 为 每 个 族 分 配 的 文档 


Date start, end; 

start=new Date(); 

DocumentCluster[] clusters = SerialKMeans.calculate(documents, 
K ,vocIndex.size(), SEED); 

end=new Date(); 

System.out.println("K: "+K+"; SEED: "+SEED) ; 

System.out.println("Execution Time: "+(end.getTime()- 


start.getTime())); 
System.out.println(Arrays.stream(clusters) 
.map (DocumentCluster: :getDocumentCount ) 
.Sorted (Comparator.reverseOrder() ) 
.map(Object: : toString) 
.collect( Collectors.joining(", ", "Cluster sizes: ", ""))); 





7.2.3 ”并 发 版 本 


为 实现 该 算法 的 并 发 版 本 ， 我 们 运用 了 Fork/Join 框 架 。 我 们 已 经 基于 
RecursiveAction 类 实现 了 两 种 任务 。 如 前 所 述 ， 当 希望 使 用 Fork/Join 
框架 处 理 不 返回 结果 的 任务 时 ， 可 以 使 用 RecursiveAction 任 务 。 将 
间 派 阶段 和 更 新 阶段 的 工作 作为 在 Fork/Join 框 架 中 执行 的 任务 来 实现 。 


为 实现 k-means 算法 的 并 发 版 本 ， 将 修改 一 些 公 共 类 以 便 使 用 并 发 数据 
结构 。 然 后 ， 要 实现 两 个 任务 。 最 后 ， 还 将 实现 ConcurrentKMeans 类 
和 ConcurrentMain 类 。 其 中 ，ConcurrentKMeans 类 实现 了 算法 的 并 


发 版 本 ， 而 ConcurrentMain 类 用 于 测试 算法 的 并 发 版 本 。 
01. 面 癌 Fork/Join 框 架 的 两 个 任务 : AssignmentTask 和 UpdateTask 


Al 将 指派 阶段 和 更 新 阶段 作为 在 Fork/Join 框 架 中 执行 的 任 
实现 。 


指派 阶段 指派 一 个 文档 至 与 该 文档 欧 氏 距离 最 短 的 族 。 这 样 束 必 须 
要 处 理 所 有 文档 并 且 计 算 所 有 文档 和 所 有 簇 之 间 的 欧 氏 距离 。 我 们 
将 使 用 一 个 任务 中 的 文档 数 作为 指标 ， 以 便 决定 是 人 否 必 须 将 该 任务 
分 割 。 从 要 处 理 所 有 文档 的 任务 开始 分 割 ， 直 到 任务 要 处 理 的 文档 
数 低 于 预定 规模 为 止 。 


AssignmentTask 类 有 以 下 几 个 属性 。 








含有 有 关 簇 数据 的 ConcurrentDocumentCluster 对 象 数 组 。 
含有 有 关 文 档 数 据 的 ConcurrentDocument 对 象 数 组 。 
a 它们 决定 了 任务 要 人 处理 的 文档 
AtomicInteger 属 性 numChanges， 它 存放 的 是 从 上 一 轮 执 行 
到 当前 执行 的 过 程 中 改变 了 为 其 指派 的 徐 的 文档 数 。 
|e 它 存 放 的 是 一 个 任务 所 能 处 理 的 最 大 文档 


我 们 实现 了 一 个 构造 函数 来 初始 化 所 有 属性 ， 以 及 用 于 获取 和 设置 
这 些 属 性 值 的 方法 。 


这 些 任务 (对 每 个 任务 都 是 如 此 ) 的 主 方法 是 compute() 方 法 。 首 
先 ， 检 查 任务 必须 处 理 的 文档 数 。 如 果 该 值 小 于 或 等 于 maxSize 属 
性 的 值 ， 那 么 处 理 这 些 文档 。 计 算 每 个 文档 和 所 有 艇 之 间 的 欧 氏 距 
离 ， 并 且 为 文档 选择 距离 最 短 的 簇 。 如 果 必 要 ， 可 以 使 

用 incrementAndGet() 方 法 增加 numChanges 原 子 变 量 的 值 。 该 原 
子 变 量 可 以 同时 由 多 个 线程 更 新 且 无 须 同步 机 制 ， 而 且 不 会 导致 任 
何 内 存 不 一 致 问 题 。 相 关 代码 如 下 : 














protected void compute() { 
if (end - start <= maxSize) { 
for (int i = start; i < end; i++) { 
ConcurrentDocument document = documents[i]; 


double distance = Double.MAX_VALUE; 
ConcurrentDocumentCluster selectedCluster = null; 
for (ConcurrentDocumentCluster cluster : clusters) { 
double curDistance = DistanceMeasurer.euclideanDistance 
(document.getData(), cluster.getCentroid()); 
if (curDistance < distance) { 
distance = curDistance; 
selectedCluster = cluster; 


} 


selectedCluster.addDocument (document) ; 
boolean result = document.setCluster(selectedCluster) ; 
if (result) { 

numChanges. incrementAndGet() ; 


} 





如 果 该 任务 要 处 理 的 文档 数量 太 多 ， 那 么 将 该 集合 分 割 成 两 个 部 
分 ， 并 且 创 建 两 个 新 的 任务 来 分 别处 理 这 两 个 部 分 ， 如 下 所 示 : 


} else { 
int mid = (start + end) / 2; 
AssignmentTask task1 = new AssignmentTask(clusters, documents, 
start, mid, numChanges, maxSize); 
AssignmentTask task2 = new AssignmentTask(clusters, documents, 


mid, end, numChanges, maxSize); 


invokeAll(task1, task2); 
} 
} 





为 了 在 Fork/Join 池 中 执行 上 述 任务 ， 使 用 了 invokeAl11() 方 法 。 议 
方法 在 任务 结束 其 执行 后 返回 。 


更 新 阶段 重新 计算 每 个 秘 的 质心 作为 该 簇 中 所 有 文档 的 平均 值 。 如 
此 便 必 须 处 理 所 有 艇 。 我 们 将 使 用 一 个 任务 要 处 理 的 簇 数 作 为 指标 
来 控制 是 否 要 对 任务 进行 分 割 。 从 一 个 需要 处 理 所 有 艇 的 任务 开 
人 ， 对 其 进行 分 割 ， 直 到 任务 要 处 理 的 簇 比 预定 规模 小 为 止 。 
UpdateTask 类 有 如 下 属性 。 


。 含有 有 关 艇 数据 的 ConcurrentDocumentCluster 对 象 数 组 。 


。 两 个 整 型 属性 start 和 end， 它 们 确定 了 任务 要 处 理 的 复数 。 
。 整 型 属性 maxSize， 存 储 了 一 个 任务 可 处 理 的 最 大 禾 数 。 


我 们 实现 了 一 个 初始 化 上 述 属性 的 构造 函数 ， 以 及 用 于 获取 和 设置 
这 些 属性 值 的 方法 。 


compute() 方 法 首先 检查 任务 要 处 理 的 复数 。 如 果 该 数值 小 于 或 者 
等 于 maxSize 属 性 的 值 ， 则 该 方法 将 处 理 这 些 复 并 且 更 新 其 质心 。 


@Override 
protected void compute() { 
if (end - start <= maxSize) { 


for (int i = start; i < end; i++) { 
ConcurrentDocumentCluster cluster = clusters[i]; 
cluster.calculateCentroid(); 


} 


如 果 任 务 要 处 理 的 簇 数 量 太 大 ， 那 么 将 任务 要 处 理 的 簇 集合 划分 成 
两 个 部 分 ， 并 且 创 建 两 个 任务 来 分 别处 理 每 一 半 和 集合 ， 如 下 所 示 : 





} else { 
int mid = (start + end) / 2; 
UpdateTask task1 = new UpdateTask(clusters, start, mid, 
maxSize); 


UpdateTask task2 = new UpdateTask(clusters, mid, end, 
maxSize); 


invokeAll(task1, task2); 





02. ConcurrentKMeans2 


ConcurrentKMeans 类 实现 了 k-means 聚 类 算法 的 并 发 版 本 。 和 串 行 
版 本 一 样 ， 该 类 的 主 方法 是 calculate( ) 方 法 。 该 方法 接收 如 下 参 
数 。 


。 存放 有 关 文 档 信 息 的 ConcurrentDocument 对 象 数组 。 
想 要 生成 的 簇 的 数目 。 

词汇 表 的 大 小 。 

用 于 随机 数 生成 器 的 “种 子 ”。 

在 不 将 Fork/Join 任 务 分 割 成 其 他 任务 的 前 提 下 ， 该 任务 所 要 处 





理 的 最 大 项 数 。 


calculate() 方 法 返回 一 个 存放 簇 信息 的 
ConcurrentDocumentCluster 对 象 数组 。 每 个 艇 都 有 与 之 相关 的 
文档 列表 。 首 先 ， 基 于 文档 创建 由 numberClusters 参 数 指定 数目 
的 复数 组 ， 并 且 使 用 initialize() 方 法 和 一 个 Random 对 象 来 初始 
化 这 些 艇 。 





public class ConcurrentKMeans { 


public static ConcurrentDocumentCluster[] calculate 
(ConcurrentDocument[] documents int numberCluster 
int vocSize, int seed, int maxSize) { 
ConcurrentDocumentCluster[] clusters = new 
ConcurrentDocumentCluster[numberClusters ]; 


Random random = new Random(seed) ; 

for (int i = @; i < numberClusters; i++) { 
clusters[i] = new ConcurrentDocumentCluster(vocSize) ; 
clusters[i].initialize(random) ; 


} 


然后 ， 重 复 指 派 阶 段 和 更 新 阶段 ， 直 到 所 有 文档 所 属 的 簇 都 不 再 改 
变 为 止 。 在 进入 循环 之 前 ， 创 建 ForkJoinPool 对 象 来 执行 该 任务 
及 其 所 有 子 任务 。 一 旦 循环 完成 ， 与 其 他 Executor 对 象 一 样 ， 必 

须 对 Fork/Join 池 使 用 shutdown() 方 法 以 结束 其 执行 。 最 后 ， 返 回 

含有 文档 最 终 组 织 结果 的 艇 数组 。 








boolean change = true; 
ForkJoinPool pool = new ForkJoinPool(); 


int numSteps = ©; 
while (change) { 
change = assignment(clusters, documents, maxSize, pool); 


update(clusters, maxSize, pool); 
numSteps++; 


pool.shutdown() ; 
System.out.println( "Number of steps: "+numSteps) ; 
return clusters; 








中 派 阶段 在 assignment() 方 法 中 实现 。 访 方法 接收 徐 数 组 、 文 档 
人 首先 ， 删 除 所 有 秘 的 关联 文档 列 


private static boolean assignment(ConcurrentDocumentCluster[] 
clusters, ConcurrentDocument[ ] documents, 
int maxSize, ForkJoinPool pool) { 


boolean change = false; 


for (ConcurrentDocumentCluster cluster : clusters) { 
cluster.clearDocuments(); 


} 


然后 ， 初 始 化 必要 的 对 象 : HAT POPU ARE BE SCPE 
AtomicInteger 对 象 ， 以 及 用 于 启动 处 理 过 程 的 AssignmentTask 
对 象 。AtomicInteger 类 文 持 原子 操作 。 也 就 是 说 ， 其 他 线程 无 法 
通过 中 间 状 态 查 看 该 操作 。 对 于 剩余 线程 来 说 ， 该 操作 可 执行 也 可 
不 执行 。 这 两 个 对 象 还 在 set() 操 作 和 随后 的 get() 操 作 之 间 建 立 

了 happens-before 关 系 。 使 用 AtomicInteger 对 象 确保 所 有 线程 都 

可 以 以 线程 安全 的 方式 更 新 其 值 。 





AtomicInteger numChanges = new AtomicInteger(@); 
AssignmentTask task = new AssignmentTask(clusters, documents, ®, 


documents.length, numChanges, maxSize); 
ForkJoinPool pool = new ForkJoinPool(); 





然后 ， 使 用 ForkJoinPoo1 的 execute() 方 法 以 异步 方式 执行 池 中 
的 任务 ， 并 且 使 用 AssignmentTask 对 象 的 join() 方 法 等 待 其 结 
束 ， 如 下 所 示 : 


pool.execute(task) ; 
task. join(); 


最 后 ， 检 查 已 改变 指派 簇 的 文档 数 。 如 果 存 在 发 生 改 变 的 文档 ， 将 
返回 true 值 ， 否 则 返回 false 值 。 该 代码 如 下 所 示 : 


System.out.println("Number of Changes: " + numChanges ; 


return numChanges.get() > Q; 


} 











更 新 阶段 在 update() 方 法 中 实现 。 访 方法 接收 复数 组 和 maxSize 
作为 参数 。 首 先 ， 创 建 一 个 UpdateTask 对 象 来 更 新 所 有 复 。 然 

- 人 〈 访 方法 作为 参数 接收 ) 中 的 任务 ， 
0 下 所 示 : 


private static void update(ConcurrentDocumentCluster[] clusters, 
int maxSize, ForkJoinPool pool) { 

UpdateTask task = new UpdateTask(clusters, ©, clusters.length, 

maxSize, ForkJoinPool pool); 


pool.execute(task) ; 
task. join(); 





03. ConcurrentMain2 


ConcurrentMain 类 中 含有 main() 方 法 ， 可 启动 对 k-means 算 法 的 
测试 。 它 的 代码 与 SerialMain 类 相当 ， 只 是 将 串 行 类 改写 为 了 并 


发 类 。 
7.2.4 对 比 解 决 方案 
为 了 对 比 两 种 解决 方案 ， 我 们 更 改 三 个 参数 的 取 值 并 多 次 执行 试验 。 


。 将 其 值 分 别 设置 为 5、10、15 和 20 来 测 
试 算 法 。 

。 随机 数 生 成 器 的 “种 子 ”。 该 “种 子 ” 确 定 了 初始 质心 的 位 置 。 将 其 设 
置 为 1 和 13 来 测试 算法 。 

。 对 于 并 发 算法 来 说 ，maxSize 人 参数 确定 了 一 个 任务 在 不 分 割 的 前 提 
ea CSP EAT) 数 。 将 其 设置 为 1、20 和 400 来 
测试 算法 。 


采用 JMH 框 架 执行 这 些 示 例 ， 可 以 在 Java 中 实现 微型 基准 测试 。 使 用 面 
回 基 准 测 试 的 框架 是 比较 好 的 解雇 方案 ， 它 直接 

用 currentTimeMillis() 方 法 或 者 nanoTime() 方 法 度量 时 间 。 在 两 种 
不 同 的 架构 上 分 别 执行 这 些 示 例 10 次 。 


。 一 台 计 算 机 配置 了 Intel Core i5-5300 处 理 器 、Windows 7 操作 系统 和 
16GB 的 RAM。 该 处 理 器 有 两 个 核 ， 且 每 个 核 可 以 执行 两 个 线程 ， 








这 样 就 有 四 个 并 行 线程 。 
。 另 一 台 计 算 机 配置 了 AMD A8-640 处 理 器 、Windows 10 操 作 系 统 和 
8GB 的 RAM。 该 处 理 器 有 四 个 核 。 


下 面 是 得 到 的 执行 时 间 《〈 单 位 : Set) 。 首 移 ， 给 出 在 AMD 巢 构 上 得 


到 


w 


的 结果 。 
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面 是 在 Intel 染 构 上 得 到 的 结果 。 





Intel 架 构 
see eee [ai 














。“ 种 子 ” 对 于 执行 时 间 有 着 重要 且 不 可 预测 的 影响 。 有 时 使 用 “种 
了 ”13 的 执行 时 间 会 低 一 避 ， 但 有 时 使 用 “种 子 ”1 的 执行 时 间 会 低 一 
止 


增加 簇 的 数目 时 ， 执 行 时 间 也 会 增加 。 

maxSize 参 数 对 于 执行 时 间 的 影响 不 大 。 参 数 K 或 者 “种 子 ” 对 于 执 
行 时 间 的 影响 较 大 。 如 果 增 大 了 maxSize 参 数 的 值 ， 将 会 获得 更 好 
的 性 能 。1 和 20 之 间 的 差别 比 20 和 400 之 间 的 差别 更 大 。 

在 所 有 情况 下 ， 算 法 的 并 发 版 本 的 性 能 都 比 串 行 版 本 更 好 。 只 有 在 
oe “RAAT ABD, AB TARA ZR RA SLES A hi 
Te 


例如 ， 如 果 用 加 速 比 来 比较 参数 为 K=20 且 seed=13 的 串 行 算法 和 参数 
为 K=20、seed=13 且 maxSize=400 的 并 行 算法 的 执行 速度 ， 就 会 得 到 下 
面 的 结果 。 

















G {serial 23 626.983 3 590 
SAMD = = = 一 一 一 一 一 一 3.525 
T concurrent 6694.77 


Teria 10 495.405 


T concurrent 9371 79 





= 1.95 





Sintel = 


7.3 ”第 二 个 例子 : 数据 筛选 算法 


假设 有 大 量 描述 东 个 项 列表 的 数据 。 例 如 ， 假 设 有 关于 很 多 人 的 很 多 属 
性 《〈 姓 名、 姓氏、 地 址 、 电 话 号 码 等 ) 。 通 常 需要 获得 满足 特定 标准 的 
数据 。 例 如 ， 想 要 获得 在 茶 一 街道 技 住 的 人 或 者 叫 茶 个 特定 名 字 的 人 。 


本 节 ， 你 将 实现 这 样 一 个 贤 选 程序 。 我 们 采用 了 来 自 UCI 的 Census- 
Income KDD 数 据 集 ， 该 数据 集 包 含 了 1994 年 到 1995 年 从 美国 人 口 普 查 
局 的 人 口 普 查 结 果 中 抽取 的 加 权 人 口 普查 数据 。 


在 本 例 的 并 发 版 本 中 ， 你 将 学 会 如 何 撤销 在 Fork/Join 池 中 运行 的 任务 ， 
以 及 如 何 管 理 在 任务 中 抛 出 的 未 校 验 异常 。 


7.3.1 公共 特性 


我 们 实现 了 一 些 类 来 读 取 文件 数据 并 且 进 行 第 选 。 这 些 类 在 算法 的 串 行 
版 本 和 并 发 版 本 中 都 会 用 到 ， 有 具体 如 下 。 


e CensusData 类 : 该 类 存储 了 39 个 用 于 定义 人 员 的 属性 。 该 类 定义 
了 这 些 属 性 以 及 获取 和 设置 这 些 属性 值 的 方法 。 我 们 将 通过 编号 标 
识 每 个 属性 。 该 类 的 evaluateFilter() 方 法 包含 了 属性 名 称 与 属 
性 编号 之 间 的 关系 。 

e CensusDataLoader 类 : 该 类 从 一 个 文件 中 加 载 人 口 普查 数据 。 该 

类 有 一 个 load() 方 法 ， 该 方法 将 文件 的 路 径 作 为 输入 参数 ， 返 回 

一 个 含有 文件 中 所 有 人 员 信 息 的 CensusData 数 组 。 

FilterData 类 : Z% EX SPACES. Mids TANI 

性 的 编号 和 该 属性 的 值 。 

Filter: 该 类 实现 了 一 些 方法 来 判定 一 个 CensusData 对 象 是 否 

满足 一 个 第 选 器 列表 所 设 定 的 条 件 。 


oa 它们 都 非常 简单 ， 你 可 以 伍 看 本 例 源 代 
码 的 详情 。 


7.3.2 4TH 
我 们 在 两 个 类 中 实现 了 俑 选 算法 的 串 行 版 本 。SerialSearch 类 进行 数 























据 的 筛选 ， 该 类 提供 了 两 个 方法 。 


。findAny() 方 法 : 该 方法 接收 CensusData 对 象 数组 作为 参数 ， 其 
中 有 来 自 文 件 的 数据 和 一 个 和 选 器 列表 ， 而 且 该 方法 返回 一 
个 CensusData 对 象 ， 其 中 含有 第 一 个 满足 烯 选 句 规 定 标准 的 人 
员 。 

。 findAl1() 方 法 : 该 方法 接收 CensusData 对 象 数组 作为 参数 ， 其 
中 有 来 自 文 件 的 数据 和 一 个 粒 选 器 列表 ， 而 且 该 方法 返回 一 
个 CensusData 对 象 数 组 ， 其 中 含有 所 有 满足 癣 选 堪 规 定 标准 的 人 


me 
Uae 


SerialMain 类 实现 了 该 版 本 程序 的 main() 方 法 ， 并 且 进 行程 序 测试 ， 
测量 了 该 算法 一 些 情况 下 的 执行 时 间 。 


01. SerialSearch2& 


如 前 所 述 ， 该 类 实现 了 数据 筛选 功能 。 它 提供 了 两 个 方法 ， 第 一 个 
古 findAny() 方 法 ， 用 于 碍 找 满足 科 选 右 条 件 的 第 一 个 数据 对 象 。 
该 方法 找到 第 一 个 数据 对 象 时 ， 其 执行 守成。 相关 代码 如 下 : 


public class SerialSearch { 


public static CensusData findAny (CensusData[] data, List<FilterData 
filters) { 
int index=@; 
for (CensusData censusData : data) { 
if (Filter.filter(censusData, filters)) { 


System.out.println("Found: "+index) ; 
return censusData; 


index++; 


} 


return null; 





ee ence is, 该 方法 返回 一 个 CensusData 对 象 数 
朋 ， 其 中 含有 满足 筛选 标准 的 所 有 对 象 ， 具 体 如 下 : 


public static List<CensusData> findAll (CensusData[] data, 
List<FilterData> filters) { 


List<CensusData> results=new ArrayList<CensusData>(); 


for (CensusData censusData : data) { 
if (Filter.filter(censusData, filters)) { 
results.add(censusData) ; 
} 
} 


return results; 





02. SerialMain 类 


你 将 在 不 同情 况 下 使 用 该 类 测试 科 选 算法 。 首 先 ， 从 文件 加 载 数 
Hi W FATZ: 


public class SerialMain { 
public static void main(String[] args) { 
Path path = Paths.get("data","census-income.data"); 


CensusData data[]=CensusDataLoader.load(path); 
System.out.println("Number of items: "+data.length); 


Date start, end; 





我 们 要 做 的 第 一 件 事 是 使 用 findAny() 方 法 查找 出 现在 数组 中 第 一 
个 位 置 的 对 象 。 可 以 构建 一 个 季 选 器 列表 ， 然 后 调用 findAny () 77 
法 ， 该 方法 的 参数 为 文件 中 的 数据 和 筛选 器 列表 。 





List<FilterData> filters=new ArrayList<>(); 
FilterData filter=new FilterData(); 
filter.setIdField(32); 
filter.setValue("Dominican-Republic"); 
filters.add(filter) ; 

filter=new FilterData(); 
filter.setIdField(31); 
filter.setValue("Dominican-Republic"); 
filters.add(filter) ; 

filter=new FilterData(); 
filter.setIdField(1); 
filter.setValue("Not in universe"); 
filters.add(filter) ; 

filter=new FilterData(); 
filter.setIdField(14) ; 


filter.setValue("Not in universe"); 
filters.add(filter) ; 
start=new Date(); 
CensusData result=SerialSearch.findAny(data, filters); 
System.out.println( "Test 1 - Result: "+result 

. getReasonForUnemployment()); 


end=new Date(); 
System.out.println("Test 1- Execution Time: "+(end.getTime() - 
start.getTime())); 





fiarta Pde TERETA aK -o 


e 32: 这 是 生父 的 国籍 属性 。 
e 31: 这 是 生母 的 国籍 属性 。 
。1: 这 是 工作 类 别 属 性 ， 其 中 一 个 可 能 值 是 Not in 





universe. 
e 14: 这 是 失业 原因 属性 ， 其 中 一 个 可 能 值 是 Not in 
universe. 


我 们 将 按照 如 下 方式 测试 其 他 用 例 。 


。 使 用 findAny() 方 法 查找 出 现在 数组 中 最 后 一 个 位 置 的 对 象 。 
。 使 用 findAny() 方 法 尝试 查找 某 个 并 不 存在 的 对 象 。 

。 在 错误 情境 中 使 用 findAny() 方 法 。 

。 使 用 findA11( ) 方 法 获取 满足 入 选 器 列表 条 件 的 所 有 对 象 。 
。 在 错误 情境 中 使 用 findA1l1() 方 法 。 


7.3.3 ”并 发 版 本 
我 们 将 在 并 发 版 本 中 引入 更 多 要 素 。 


。 任务 管理 器 : 使 用 Fork/Join 框 架 时 ， 从 一 个 任务 开始 ， 并 且 将 该 任 
务 分 割 成 两 个 或 者 更 多 子 任务 ， 之 后 再 一 次 次 分 割 ， 直 到 问题 达到 
你 想 要 的 规模 为 止 。 有 些 情况 下 ， 需 要 结束 所 有 任务 。 例 如 ， 实 现 
findAny() 方 法 并 且 找 到 了 一 个 满足 所 有 条 件 的 对 象 时 ， 束 不 需要 
继续 执行 剩 下 的 任务 了 。 

。 用 于 实现 findAny() 方 法 的 RecursiveTask 类 : 该 类 是 扩展 了 
RecursiveTask 类 的 IndividualTask 类 。 

。 用 于 实现 findA11() 方 法 的 RecursiveTask 类 : 该 类 是 扩展 了 








RecursiveTask 类 的 ListTask 类 ，。 
下 面 详 细 了 解 一 下 这 些 类 。 
01. TaskManager2& 


我 们 将 使 用 该 类 来 控制 任务 的 撤销 。 我 们 将 在 下 述 两 种 情况 中 撤销 
任务 的 执行 。 


e 正在 执行 findAny() 操 作 并 且 找 到 了 满足 要 求 的 对 象 。 
。 正 在 执行 findAny() 或 findA11() 操 作 并 且 在 某 个 任务 中 出 现 
SPR o 


该 类 声明 了 两 个 属性 : 一 个 是 用 于 存放 所 有 竺 撤销 任务 的 
ConcurrentLinkedDeque， 另 一 个 是 用 于 保证 只 有 一 个 任务 执 
行 cancelTasks() 方 法 的 AtomicBoolean 变 量 。 使 
a Paneer 
门 的 值 。 





public class TaskManager { 


private Set<RecursiveTask> tasks; 
private AtomicBoolean cancelled; 


public TaskManager() { 
tasks = ConcurrentHashMap.newKeySet () ; 
cancelled = new AtomicBoolean(false); 


} 





该 类 定义 了 向 ConcurrentLinkedDeque 添 加 某 个 任务 的 方法 ， 从 
ConcurrentLinkedDeque 中 删除 某 个 任务 的 方法 ， 以 及 撤销 存放 
在 ConcurrentLinkedDeque 中 所 有 任务 的 方法 。 要 撤销 这 些 任 
务 ， 我 们 使 用 在 ForkJoinTask 类 中 定义 的 cancel() 方 法 。 该 方法 
的 参数 为 true 时 会 强制 中 断 运 行 中 的 任务 ， 如 下 所 示 : 





public void addTask(RecursiveTask task) { 
tasks.add(task) ; 
} 


public void cancelTasks(RecursiveTask sourceTask) { 


02. 


if (cancelled.compareAndSet(false, true)) { 
for (RecursiveTask task : tasks) { 
if (task != sourceTask) { 

if(cancelled.get()) { 
task.cancel(true) ; 

} 

else { 
tasks.add(task); 


public void deleteTask(RecursiveTask task) { 
tasks.remove(task) ; 


} 





cancelTasks() 方 法 接收 一 个 RecursiveTask 对 象 作 为 参数 。 除 
了 调用 该 方法 的 任务 之 外 ， 我 们 将 撤销 所 有 其 他 任务 。 我 们 不 想 撤 
销 已 经 找到 结果 的 任务 。compareAndSet(false，true) 方 法 

将 AtomicBoolean 变 量 设 置 为 true， 而 且 当 且 仅 当 该 变量 的 当前 
值 为 false 时 才 会 返回 true 值 。 如 果 AtomicBoolean 变 量 已 经 有 一 
个 true 值 ， 那 么 该 方法 将 返回 false 值 。 整 个 操作 都 以 原子 方式 执 
行 ， 因 此 即使 cancelTasks() 方 法 被 不 同 线程 同时 调用 多 次 ， 也 能 
够 保证 if 语 句 的 主体 部 分 最 多 执行 一 次 。 











IndividualTask 类 


IndividualTask 类 扩展 了 RecursiveTask 类 ， 以 CensusData 任 
务 为 参数 ， 并 且 实 现 了 findAny() 操 作 。 访 类 定义 了 如 下 属性 。 


。 一 个 含有 所 有 CensusData 对 象 的 数组 。 

e Start 属 性 和 end 属 性 ， 它 们 确定 了 要 处 理 的 元 素 。 

° a 它 确定 了 在 无 须 分 割 任务 的 前 提 下 所 处 理 的 最 大 元 
。TaskManager 类 ， 它 用 于 在 必要 之 时 撤销 任务 。 


下 面 的 代码 给 出 了 一 个 将 要 应 用 的 筛选 融 列 表 。 


private CensusData[] data; 


private int start, end, size; 
private TaskManager manager; 
private List<FilterData> filters; 


public IndividualTask(CensusData[] data, int start, 
int end, TaskManager manager, 
int size, List<FilterData> filters) { 


this.data = data; 
this.start = start; 
this.end = end; 
this.manager = manager; 
this.size = size; 
this.filters = filters; 








该 类 中 的 主 方法 是 compute() 方 法 。 该 方法 返回 一 个 CensusData 
对 象 。 如 果 任 务 需 要 处 理 的 元 素数 比 size 属 性 值 小 ， 该 方法 直接 进 
行 对 象 查找 。 如 果 该 方法 找到 了 想 要 的 对 象 ， 那 么 它 将 返回 该 对 象 
并 且 使 用 cancelTasks() 方 法 撤销 剩余 任务 的 执行 。 如 果 该 方法 没 
有 找到 想 要 的 对 象 ， 那 么 它 将 返回 null 值 ， 如 下 所 示 : 


if (end - start <= size) { 
for (int i = start; i < end && ! Thread.currentThread() 
.isInterrupted(); i++) { 
CensusData censusData = data[i]; 
if (Filter.filter(censusData, filters)) { 
System.out.println( "Found: " + i); 
manager.cancelTasks(this) ; 
return censusData; 
} 
} 


return null; 


} 


如 果 要 处 理 的 项 数 要 比 size 属 性 规定 的 多 ， 那 么 要 创建 两 个 子 任务 
来 分 别处 理 其 中 的 一 半 元 素 。 





} else { 
int mid = (start + end) / 2; 
IndividualTask task1 = new IndividualTask(data, start, mid, manager, 


size, filters); 
IndividualTask task2 = new IndividualTask(data, mid, end, manager, 
size, filters); 





然后 ， 回 任务 管理 喜 添 加 新 创建 的 任务 ， 并 且 删 除 实 际 任务 。 如 采 
要 撤销 任务 ， 即 指 仅 撤 销 正在 运行 的 任务 。 


manager.addTask(task1) ; 
manager. addTask(task2); 
manager.deleteTask(this) ; 


接着 ， 使 用 fork() 方 法 以 异步 方式 将 任务 发 送 给 ForkJoinPool， 
并 且 使 用 quietlyJoin() 方 法 等 待 其 执行 结束 。 


join() 方 法 和 quietlyJoin() 方 法 之 间 的 区 别 在 于 ，join() 启 动 
之 后 ， 如 果 任 务 撤 销 ， 将 抛 出 异常 ， 或 者 在 方法 内 部 抛 出 一 个 未 校 
验 异 常 ， 而 quietlyJoin() 方 法 则 不 抛 出 任何 异常 。 





task1. fork(); 
task2.fork(); 


task1.quietlyJoin(); 
task2.quietlyJoin(); 





然后 ， 从 TaskManager 类 中 删除 子 任务 ， 如 下 所 示 : 


manager.deleteTask(task1); 
manager.deleteTask(task2); 
现在 ， 使 用 join() 方 法 获取 任务 的 结果 。 如 果 一 个 任务 抛 出 一 个 


未 校 验 寞 剃 ， 那 么 该 异常 将 被 传播 而 无 须 特 殊 处 理 ， 而 撤销 操作 则 
直接 被 忽略 ， 如 下 所 示 : 





try { 
CensusData res = task1.join(); 
if (res != null) 
return res; 
manager.deleteTask(task1) ; 
} catch (CancellationException ex) { 
} 
try { 
CensusData res = task2.join(); 
if (res != null) 
return res; 
manager.deleteTask(task2) ; 
} catch (CancellationException ex) { 


} 
return null; 
} 
} 





03. ListTask 类 


ListTask 类 扩展 了 RecursiveTask 类 ， 采 用 一 个 CensusData 对 象 
列表 作为 参数 。 我 们 将 使 用 该 任务 来 实现 findA11() 操 作 。 该 任务 
和 IndividualTask 任 务 非 营 相似 ， 都 使 用 相同 的 属性 ， 但 是 它们 
在 compute() 方 法 上 有 所 不 同 。 


首先 ， 初 始 化 一 个 List 对 象 以 返回 结果 并 且 校 验 任务 要 处 理 的 元 素 
数量 。 如 果 任 务 要 处 理 的 元 际 数 量 小 于 size 属 性 ， 将 满足 电 选 器 指 
定 标准 的 所 有 对 象 添 加 到 结果 列表 中 。 





@Override 

protected List<CensusData> compute() { 
List<CensusData> ret = new ArrayList<CensusData>(); 
List<CensusData> tmp; 


if (end - start <= size) { 
for (int i = start; i < end; i++) { 
CensusData censusData = data[i]; 
if (Filter.filter(censusData, filters)) { 
ret.add(censusData) ; 





} 
} 
a RR 将 创建 两 个 子 任务 来 处 理 其 中 各 
NN EA A 元 =e 





int mid = (start + end) / 2; 
ListTask task1 = new ListTask(data, start, mid, manager, size, 


filters); 
ListTask task2 = new ListTask(data, mid, end, manager, size, filters); 





然后 ， 将 新 创建 的 任务 添加 到 任务 管理 器 并 且 删 除 原 来 的 实际 任 
务 。 该 实际 任务 并 不 会 被 撤销 ， 而 其 子 任务 会 被 撤销 ， 如 下 所 未 : 


manager.addTask(task1) ; 
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manager.addTask(task2); 

manager.deleteTask(this) ; 

然后 ， 使 用 fork( ) 方 法 以 异步 方式 将 任务 发 送 给 ForkJoinPoo1， 
并 且 使 用 quietlyJoin() 方 法 等 待 其 执行 结束 。 


task1.fork(); 
task2.fork(); 


task2.quietlyJoin(); 
task1.quietlyJoin(); 





然后 ， 从 TaskManager 中 删除 子 任务 。 


manager.deleteTask(task1) ; 
manager.deleteTask(task2) ; 
现在 ， 使 用 join() 方 法 获取 任务 结果 。 如 果 一 个 任务 抛 出 了 未 校 


和 


try { 
tmp = task1.join(); 
if (tmp != null) 
ret.addAll(tmp) ; 
manager.deleteTask(task1) ; 
} catch (CancellationException ex) { 
} 
try { 


tmp = task2.join(); 

if (tmp != null) 
ret.addAll(tmp); 
manager.deleteTask(task2) ; 

} catch (CancellationException ex) { 





ConcurrentSearch2& 


ConcurrentSearch 类 实现 了 findAny() 和 findAl1() 方 法 。 这 两 
个 方法 与 串 行 版 本 的 相应 方法 有 着 相 同 的 接口 。 从 内 部 来 看 ， 它 们 
初始 化 TaskManager 对 象 和 第 一 个 任务 ， 并 且 使 用 execute 方 法 将 


其 发 送 给 默认 的 ForkJoinPoo1， 然 后 等 竺 任务 结束 并 且 输 出 结 
果 。 下 面 是 findAny() 方 法 的 代码 。 


public class ConcurrentSearch { 


public static CensusData findAny (CensusData[] data, 
List<FilterData> filters, int size) { 
TaskManager manager=new TaskManager() ; 
IndividualTask task=new IndividualTask(data, ©, data.length, 
manager, size, filters); 
ForkJoinPool.commonPool().execute(task) ; 
try { 
CensusData result=task.join(); 
if (result!=null) { 
System.out.println("Find Any Result: "+result.getCitizenship()); 
return result; 
} catch (Exception e) { 
System.err.println("findAny has finished with an error: "+ 
task.getException().getMessage()); 
} 


return null; 





下 面 是 findAl11() 方 法 的 代码 。 


public static CensusData[] findAll (CensusData[] data, 
List<FilterData> filters, int size) { 
List<CensusData> results; 
TaskManager manager=new TaskManager(); 
ListTask task=new ListTask(data,0,data. length, manager, 

size,filters) ; 

ForkJoinPool.commonPool().execute(task) ; 
try { 


results=task.join(); 
return results; 
} catch (Exception e) { 
System.err.println("findAny has finished with an 
error: " + task.getException().getMessage()); 


} 


return null; 


} 





05. ConcurrentMain2 


ConcurrentMain 类 用 于 测试 目标 往 选 器 的 并 发 版 本 。 它 和 
SerialMain 类 似 ， 只 是 采用 了 各 种 并 发 版 本 的 操作 。 


7.3.4 ”对 比 两 个 版 本 
为 了 比较 筛选 算法 的 串 行 版 本 和 并 发 版 本 ， 我 们 分 六 种 情形 进行 测试 。 


。 测试 1: 测试 findAny() 方 法 ， 查 找 一 个 对 象 ， 它 在 CensusData 数 
组 中 的 第 一 个 位 置 。 

。 测试 2: 测试 findAny() 方 法 ， 查 找 一 个 对 象 ， 它 在 CensusData 数 

组 的 最 后 一 个 位 置 。 

测试 3: 测试 findAny() 方 法 ， 查 找 一 个 不 存在 的 对 象 。 

测试 4: 在 错误 情况 下 测试 findAny() 方 法 。 

测试 5: 在 正常 情况 下 测试 findA11() 方 法 。 

测试 6: 在 错误 情况 下 测试 findA11() 方 法 。 


对 于 算法 的 并 发 版 本 ， 我 们 测试 了 size 参 数 的 3 组 不 同 取 值 ， 该 参数 确 
定 了 一 个 任务 在 不 分 割 成 两 个 子 任务 时 所 能 处 理 的 最 大 元 素数 。 测 试 使 
用 的 最 大 浆 值 为 10、200、2000 和 4000 个 元 素 。 


采用 JMH 框 架 执行 这 些 示 例 ， 该 框架 允许 在 Java 中 实现 微型 基准 测试 。 
使 用 面向 基准 测试 的 框架 是 比较 好 的 解决 方案 ， 它 直接 

用 currentTimeMil1lis() 方 法 或 者 nanoTime() 方 法 度量 时 间 。 在 两 种 
不 同 的 架构 上 分 别 执行 这 些 示 例 10 次 。 


。 一 台 计 算 机 配置 了 Intel Core i5-5300 处 理 器 、Windows 7 操作 系统 和 
16GB 的 RAM。 访 处理 器 有 两 个 核 ， 且 每 个 核 可 以 执行 两 个 线程 ， 
这 样 就 有 四 个 并 行 线程 。 

。 另 一 台 计 算 机 配置 了 AMD A8-640 处 理 器 、Windows 10 操 作 系 统 和 
8GB 的 RAM。 该 处 理 器 有 四 个 核 。 


与 其 他 例子 相同 ， 以 坚 秒 为 单位 度量 执行 时 间 。 首 先 给 出 在 AMD 架 构 
上 的 运行 结果 。 








AMD 架 构 














试 86.049 75.872 57.954 32.56 32.876 并 发 版 本 


测试 2 














在 Intel 架 构 上 运行 的 结果 如 下 。 


Je = 并 发 版 本 | 并 发 版 本 | 并 发 版 本 | 并 发 版 本 局 外 

















根据 上 述 表 格 ， 可 以 得 出 如 下 结论 。 


。 处 理 相对 少量 的 元 素 时 ， 算 法 的 串 行 版 本 具有 更 好 的 性 能 。 

。 处 理 所 有 元 素 或 者 其 中 的 一 部 分 时 ， 算 法 的 并 发 版 本 具有 更 好 的 性 
能 。 

e 在 错误 情况 下 ， 算 法 的 串 行 版 本 要 比 并 发 版 本 的 性 能 更 好 。 当 size 
参数 的 值 较 小 时 ， 并 发 版 本 在 这 种 情况 下 性 能 非常 糟糕 。 


在 这 种 情况 下 ， 并 发 处 理 并 不 会 总 能 提升 性 能 。 























7.4 第 三 个 例子 : 归并 排序 算法 


归并 排序 算法 是 一 种 非常 流行 的 排序 算法 ， 通 利 使 用 分 治 方法 实现 ， 
此 它 是 一 个 用 于 测试 Fork/Join 框 架 的 很 好 的 候选 算法 。 


为 实现 归并 排序 算法 ， 我 们 将 未 排序 的 列表 划分 为 仅 有 一 个 元 系 的 子 列 
表 。 然 后 ， 将 这 些 未 排序 的 子 列表 合并 以 产生 排序 后 的 子 列表 ， 和 直到 将 
所 有 这 些 子 列表 处 理 完毕 。 最 后 得 到 最 初 的 唯一 列表 ， 只 不 过 其 中 所 有 
的 元 素 都 进行 了 排序 处 理 。 


为 了 编写 该 算法 的 并 发 版 本 ， 我 们 采用 了 Java 8 中 引入 的 
CountedCompleter 任 务 。 这 类 任务 最 重要 的 特征 是 ， 它 们 都 含有 一 个 
可 在 所 有 子 任务 执行 完毕 之 后 执行 的 方法 。 


为 了 测试 上 述 实 现 方法 ， 我 们 使 用 了 亚 马 进 产 品 联合 采购 网 络 元 数据 

〈 可 以 在 SNAP 搜 索 “Amazon product co-purchasing network metadata” 下 
载 ) 。 我 们 创建 了 一 个 含有 542 184 个 产品 的 销售 排名 列表 。 我 们 将 测 
试 该 算法 的 各 个 版 本 ， 对 该 产品 列表 进行 排序 ， 并 且 使 用 Arrays 类 的 
sort() 方 法 和 parallelSort() 方 法 来 比较 执行 时 间 。 














7.4.1 共享 类 


正如 前 面 提 到 的 ， 已 经 构建 了 一 个 含有 542 184 球 Amazon 产 品 的 列表 ， 
包括 每 个 产品 的 ID、 产 品名 称 、 分 组 、 销 售 排名 、 浏 览 数量 、 相 似 产品 
编码 ， 以 及 每 个 产品 所 属 的 类 别 编码 。 我 们 实现 了 AmazonMetaData 类 
来 存放 产品 信息 。 该 类 声明 了 必要 的 属性 以 及 获取 和 设置 这 些 属性 值 的 
方法 。 该 类 实现 了 Comparable 接 口 以 对 比 该 类 的 两 个 实例 。 我 们 想 要 
按照 销售 排名 以 升序 排列 这 些 元 素 。 为 了 实现 compare() 方 法 ， 使 

用 Long 类 的 compare() 方 法 比较 两 个 对 象 的 销售 排名 ， 如 下 所 示 : 








public int compareTo(AmazonMetaData other) { 
return Long.compare(this.getSalesrank(), 
other.getSalesrank()); 


我 们 还 实现 了 AmazonMetaDataLoader 类 ， 它 提供 了 load() 方 法 。 该 
方法 接收 合 有 数据 文件 的 路 径 作 为 参数 ， 返 回 含 有 所 有 产品 信息 的 





AmazonMetaData 对 象 数组 。 


”为 了 集中 介绍 Fork/Join 框 架 的 特性 ， 此 处 并 没有 给 出 这 些 类 的 
源 代码 。 


7.4.2 TRÆ 


我 们 在 SerialMergeSort 类 中 实现 了 归并 排序 算法 的 串 行 版 
本 。SerialMergeSort 类 实现 了 算法 本 身 和 SerialMetaData 类 ， 并 提 
供 了 测试 该 算法 的 main() 方 法 。 


01. SerialMergeSort 类 


SerialMergeSort 类 实现 了 归并 排序 算法 的 串 行 版 本 。 它 提供 的 
mergeSort() 方 法 可 接收 如 下 参数 。 


。 含有 所 有 竺 排序 数据 的 数组 。 
。 该 方法 要 处 理 的 第 一 个 元 素 〈 包 含 ) 。 
。 该 方法 要 处 理 的 最 后 一 个 元 素 〈 不 包含 ) 。 


如 采访 方法 仅 需 要 处 理 一 个 元 素 ， 则 其 立即 返回 。 人 否则 ， 它 将 两 次 
递归 调用 mergeSort() 方 法 。 第 一 次 调用 处 理 前 一 半 元 素 ， 第 二 次 
调用 处 理 后 一 半 元 素 。 最 后 ， 调 用 merge() 方 法 合并 两 部 分 元 素 ， 
并 且 获 得 一 个 经 过 排序 的 元 素 列 表 。 




















public void mergeSort (Comparable data[], int start, int end) { 
if (end-start < 2) { 
return; 


int middle = (end+start)>>>1; 
mergeSort(data, start,middle) ; 
mergeSort(data, middle, end) ; 

merge(data,start,middle, end) ; 





使 用 (end+start)>>>1 操 作 符 获 取 位 于 数组 中 间 位 置 的 元 素 ， 进 
而 分 割 数组 。 例 如 ， 如 果 有 15 亿 个 元 素 ( 对 于 当前 的 内 存心 片 来 说 
并 非 不 可 能 ) ， 这 一 操作 仍然 适用 于 Java 数 组 。 然 而 ， 采 

用 (end+start)/2 的 方法 将 溢出 ， 结 果 得 到 一 个 负数 值 的 数组 。 可 





以 阅读 名 为 “Extra, Extra-Read All About It: Nearly All Binary 
Searches and Mergesorts are Broken” 的 文章 获取 有 关 该 问题 的 详细 解 
RE o 


merge() 方 法 将 两 个 元 素 列表 合并 以 得 到 一 个 排序 的 列表 。 访 方法 
可 接收 如 下 参数 。 


。 含 有 所 有 待 排序 数据 的 数组 。 
e 三 个 元 素 : start、mid 和 end， 它 们 将 待 归并 和 排序 的 数组 划 
分 成 两 个 部 分 (start-mid 和 mid-end)。 


我 们 创建 了 一 个 临时 数组 来 对 元 素 进 行 排序 ， 然 后 ， 处 理 列表 的 两 
部 分 时 ， 会 在 数组 中 对 元 素 进 行 排序 ， 并 且 在 原始 数组 相同 的 位 置 
上 存放 已 排序 的 列表 。 如 下 述 代码 所 未: 

















private void merge(Comparable[] data, int start, int middle, 
int end) { 
int length=end-start+1; 
Comparable[] tmp=new Comparable[ length] ; 
int i, j, index; 
i=start; 
j=middle; 
index=@; 
while ((i<middle) && (j<end)) { 
if (data[i].compareTo(data[j])<=0) { 
tmp[ index ]=data[i]; 
itt; 
} else { 
tmp[ index ]=data[j]; 
j++; 
} 
index++; 


} 


while (i<middle) { 
tmp[index]=data[i]; 
i++; 
index++; 


} 


while (j<end) { 
tmp[index]=data[j]; 
j++; 
index++; 


} 


for (index=@; index < (end-start); index++) { 
data[index+start ]=tmp[ index]; 





02. SerialMetaData2& 


serialMetaData 类 提供 了 用 于 测试 算法 的 main() 方 法 。 每 个 排序 
算法 将 执行 10 次 并 且 计 算 平均 执行 时 间 。 首 先 ， 从 文件 中 加 载 数据 
并 且 创 建 该 数组 的 一 个 副本 。 
public class SerialMetaData { 
public static void main(String[] args) { 
for (int j=0; j<10; j++) { 


Path path = Paths.get("data","amazon-meta.csv"); 


AmazonMetaData[] data = AmazonMetaDataLoader.load(path) ; 
AmazonMetaData data2[] = data.clone(); 





然后 ， 使 用 Arrays 类 的 sort() 方 法 对 第 一 个 数组 进行 排序 。 


Date start, end; 


start = new Date(); 

Arrays.sort(data) ; 

end = new Date(); 

System.out.println("Execution Time Java Arrays.sort(): " + 
(end.getTime() - start.getTime())); 


接着 ， 使 用 归并 排序 算法 实现 对 第 二 个 数组 的 排序 。 








SerialMergeSort mySorter = new SerialMergeSort(); 
start = new Date(); 
mySorter.mergeSort(data2, ©, data2.length) ; 


end = new Date(); 
System.out.println( "Execution Time Java SerialMergeSort: " + 
(end.getTime() - start.getTime())); 





最 后 ， 检 碍 发 现 排序 后 的 数组 相似 。 


for (int i = @; i < data.length; i++) { 
if (data[i].compareTo(data2[i]) != @) { 
System.err.println("There's a difference is position " + 
i); 


System.exit(-1); 


} 
} 


System.out.println("Both arrays are equal"); 





7.4.3 ”并 发 版 本 


如 前 所 述 ， 我 们 将 使 用 Java 8 中 的 CountedCompleter 类 作为 面向 
Fork/Join 任 务 的 基 类 。 该 类 提供 了 某 种 机 制 ， 当 其 所 有 子 任务 完成 执行 
后 会 执行 某 个 方法 。 这 种 机 制 就 是 onCompletion() 方 法 。 因 此 ， 我 们 
使 用 compute() 方 法 分 割 数 组 ， 使 用 onCompletion() 方 法 将 子 列表 合 
并 成 一 个 经 过 排序 的 列表 。 


要 实现 的 并 发 版 解决 方案 有 下 述 三 个 类 。 
。MergeSortTask 类 ， 该 类 扩展 了 CountedCompleter 类 并 且 实 现 了 
执行 归并 排序 算法 的 任务 。 


e ConcurrentMergeSort 类 ， 该 类 启动 了 第 一 个 任务 。 











e ConcurrentMetaData 类 ， 该 类 提供 了 main() 方 法 来 测试 归并 排序 
算法 的 并 发 版 本 。 


e MergeSortTask2 


如 前 所 述 ， 该 类 实现 了 将 用 于 执行 归并 排序 算法 的 任务 。 该 类 用 到 
了 以 下 属性 。 


o 存放 符 排 序数 据 的 数组 。 
o 任务 必须 进行 排序 操作 的 这 部 分 数组 的 起 始 位 置 和 终止 位 置 。 


该 类 还 有 一 个 用 于 初始 化 其 参数 的 构造 函数 。 


public class MergeSortTask extends CountedCompleter<Void> { 


private Comparable[] data; 
private int start, end; 
private int middle; 


public MergeSortTask(Comparable[] data, int start, int end, 
MergeSortTask parent) { 
super(parent) ; 


this.data = data; 
this.start = start; 
this.end = end; 





如 果 起 始 索引 和 终止 索引 之 间 的 差距 大 于 或 等 于 1024， 那 么 使 

用 compute() 方 法 ， 将 任务 分 割 成 两 个 子 任务 来 分 别处 理 原 集合 的 
两 个 子 集 。 两 个 任务 采用 fork() 方 法 以 异步 方式 将 任务 发 送 给 
ForkJoinPool。 否 则 ， 执 行 SerialMergeSorg.mergeSort() 对 
数组 (具有 小 于 或 等 于 1024 个 元 素 〉 进行 排序 ， 然 后 调 

用 tryComplete() 方 法 。 子 任务 执行 完毕 之 后 ， 该 方法 将 从 内 部 调 
用 onCompletion() 方 法 。 如 下 述 代码 所 示 : 


@Override 
public void compute() { 
if (end - start >= 1024) { 
middle = (end+start)>>>1; 
MergeSortTask task1 = new MergeSortTask(data, start, middle, 
this); 
MergeSortTask task2 = new MergeSortTask(data, middle, end, 
this); 


addToPendingCount (1); 

task1.fork(); 

task2.fork(); 

else { 

new SerialMergeSort().mergeSort(data, start, end); 
tryComplete(); 





在 我 们 的 例子 中 采用 onCompletion() 方 法 进行 归并 和 排序 操作 ， 
进而 获得 排序 后 的 列表 。 一 旦 任务 完成 onCompletion() 方 法 的 执 
行 后 ， 它 将 在 其 父 任务 的 层面 上 调用 tryComplete() 方 法 以 完成 该 
任务 的 执行 。onCompletion() 方 法 的 源 代码 与 该 算法 串 行 版 本 的 
merge( ) 方 法 非常 相似 。 代 码 如 下 所 示 : 


@Override 
public void onCompletion(CountedCompleter<?> caller) 
if (middle==0) { 
return; 


int length = end - start + 1; 
Comparable tmp[] = new Comparable[ length] ; 
int i, j, index; 
i = start; 
j = middle; 
index = @; 
while ((i < middle) && (j < end)) { 
if (data[i].compareTo(data[j]) <= 0) { 
tmp[index] = data[il]; 
i++; 
} else { 
tmp[index] = data[j]; 
j++; 
} 


index++; 


while (i < middle) { 
tmp[index] = data[i]; 
i++; 
index++; 


} 
while (j < end) { 
tmp[index] = data[j]; 
j++; 
index++; 
} 
for (index = @; index < (end - start); index++) { 
data[index + start] = tmp[index]; 


} 





e ConcurrentMergeSort 类 


在 并 发 版 本 中 ， 该 类 非常 简单 。 它 实现 了 mergeSort() 方 法 ， 该 方 
法 接收 含有 竺 排序 数据 的 数组 ， 以 及 起 始 索引 《该 值 总 是 为 0) 和 
终止 索 引 《〈 该 值 总 是 为 数组 的 长 度 ) 作为 参数 。 此 处 选择 保持 与 串 
行 版 相同 的 接口 。 


该 方法 创建 一 个 新 的 MergeSortTask， 使 用 invoke() 方 法 将 其 发 


送 给 默认 的 ForkJoinPoo1， 该 方法 在 该 任务 完成 执行 且 数 组 已 被 
排序 后 返回 


public class ConcurrentMergeSort { 


public void mergeSort (Comparable data[], int start, int end) { 


MergeSortTask task=new MergeSortTask(data, start, end,null); 
ForkJoinPool.commonPool().invoke(task) ; 





e ConcurrentMetaDataZ2& 


ConcurrentMetaData 类 提供 了 main() 方 法 来 测试 归并 排序 算法 的 
并 发 版 本 。 在 我 们 的 例子 中 ， 该 类 的 代码 和 SerialMetaData 类 的 
代码 相当 ， 只 是 采用 了 相关 类 的 并 发 版 本 ， 并 且 使 

用 Arrays. parallelsort() 方 法 而 非 Arrays. sort() 方 法 ， 因 此 
此 处 不 再 给 出 该 类 的 源 代码 。 


7.4.4 对 比 两 个 版 本 


我 们 执行 归并 排序 算法 的 串 行 版 和 并 行 版 ， 比 较 这 两 个 版 本 的 执行 时 
间 ， 并 且 比 较 了 使 用 Arrays.sort() 方 法 和 Arrays.parallelSort() 
方法 时 的 执行 时 间 。 


使 用 JMH 框 架 执 行 这 四 个 版 本 ， 该 框架 允许 在 Java 中 实现 微型 基准 测 
试 。 使 用 面向 基准 测试 的 框架 是 比较 好 的 解决 方案 ， 因 为 可 以 直接 使 
ee )) 度量 时 间 。 在 两 种 不 同 的 架 
构 上 分 别 执行 这 些 示 例 10 次 。 


。 一 台 计 算 机 配置 了 Intel Core i5-5300 处 理 器 、Windows 7 操作 系统 和 
16GB 的 RAM。 访 处理 器 有 两 个 核 且 每 个 核 可 以 执行 两 个 线程 ， 这 
样 就 有 四 个 并 行 线程 。 

。 另 一 台 计 算 机 配置 了 AMD A8-640 处 理 器 、Windows 10 操 作 系 统 和 
8GB 的 RAM。 该 处 理 器 有 四 个 核 。 


下 面 给 出 的 是 对 含有 542 184 个 对 象 的 数据 集 进行 排序 计算 后 得 到 的 执 








ATI TE] CLARE RD AAA) 。 





Intel 架 构 | 327.608 454.84 209.653 209.732 


可 以 得 出 下 述 结论 。 


e 使 用 Arrays.parallelSort() 方 法 可 以 得 到 最 佳 结 果 。 对 于 串 行 
Arrays.sort() 方 法 比 我 们 的 实现 方法 在 执行 时 间 上 更 
Èo 

。 就 我 们 的 实现 情况 来 说 ， 算 法 的 并 发 版 本 比 串 行 版 本 性 能 更 好 。 


我 们 可 以 用 加 速 比 来 比较 归并 排序 算法 串 行 版 本 和 并 发 版 本 的 执行 时 
间 。 








G Tserial 1268.3 1.30 
AMD 一 一 = 一 一 一 ”一 上 .OU 
了 concurrent 705.33 
a 454.84 i 
Intel = 一 = 1.522 





T concurrent 298.732 


7.5 ”Fork/Join 框 架 的 其 他 方法 


在 本 章 的 三 个 例子 中 ， 我 们 用 到 了 构成 Fork/Join 框 架 的 类 的 很 多 方法 ， 
除 此 之 外 ， 你 还 需要 了 解 一 下 其 他 一 些 有 用 的 方法 。 


使 用 ForkJoinPoo1 类 的 execute() 方 法 和 invoke() 方 法 将 任务 发 送 给 
池 。 还 可 以 使 用 另 一 个 名 为 submit( ) 的 方法 。 它 们 之 间 的 主要 区 别 在 
F: execute() 方 法 将 任务 发 送 给 ForkJoinPool 之 后 立即 返回 一 

个 void 值 ;invoke() 方 法 将 任务 发 送 给 ForkJoinPool 后 ， 当 任务 完成 
执行 后 方 可 返回 ; 而 submit() 方 法 将 任务 发 送 给 ForkJoinPool 之 后 六 
即 返 回 一 个 Future 对 象 ， 用 以 控制 任务 的 状态 并 且 获 得 其 结果 。 


本 章 所 有 示例 使 用 的 类 均 基 于 ForkJoinTask 类 ， 不 过 你 也 可 以 使 用 基 
于 Runnable 接 口 和 Callable 接 口 的 ForkJoinPool 任 务 。 为 实现 这 一 
目标 ， 可 以 使 用 submit() 方 法 。 该 方法 有 接收 Runnab1le 对 象 作为 参数 
的 版 本 、 接 收 含 有 结果 的 Runnable 对 象 作 为 参数 的 版 本 和 接 

收 Ccallable 对 象 作为 参数 的 版 本 。 


ForkJoinTask 类 提供 了 get(long timeout, TimeUnit unit) 方 法 来 
获取 某 个 任务 返回 的 结果 。 访 方法 在 参数 中 指定 了 等 竺 任务 结果 的 时 间 
周期 。 如 果 该 任务 在 这 一 时 间 周 期 结束 之 前 完成 了 执行 ， 则 该 方法 返回 
相应 结果 。 人 否则 ， 访 方法 抛 出 一 个 TimeoutEXxception 异 各。 








ForkJoinTask 类 为 invoke() 方 法 提供 了 一 种 替代 方案 ， 

即 quietlyInvoke() 方 法 。 这 两 种 方法 的 主要 区 别 在 于 ，invoke() 方 
法 返回 任务 执行 的 结果 或 者 在 必要 时 抛 出 异 稼 ， 而 quietlyInvoke() 
方法 不 返回 任务 的 结果 ， 也 不 抛 出 任何 异常 。 后 者 与 示例 中 用 到 的 
quietlyJoin() 方 法 相似 。 





7.6 ”小结 


分 治 设计 方法 是 一 种 非常 流行 的 方法 ， 可 以 用 于 解决 各 种 不 同 的 问题 。 
你 可 以 将 原始 问题 分 割 成 较 小 的 问题 ， 再 将 这 些 较 小 的 问题 分 割 成 更 小 
的 问题 ， 直 到 它们 足够 简单 ， 可 以 被 直接 处 理 为 止 。 在 Java 7 中 ，Java 
并 发 API 引 入 了 一 种 特殊 的 执行 器 ， 它 是 专门 为 解决 此 类 问题 而 优化 定 
制 的 。 这 就 是 Fork/Join 框 架 。 它 基于 Fork 操 作 创 建 一 个 新 的 子 任务 ， 基 
于 Join 操 作 在 获取 结果 前 等 待 子 任务 结束 。 


采用 这 些 操 作 ，ForkyJoin 任 务 就 会 呈现 如 下 形式 : 





if ( problem.size() > DEFAULT_SIZE) { 
childTask1=new Task(); 
childTask2=new Task(); 
childTask1.fork(); 
childTask2.fork(); 
childTaskResults1=childTask1.join(); 


childTaskResults2=childTask2.join(); 
taskResults=makeResults(childTaskResults1, childTaskResults2) ; 
return taskResults; 

else { 

taskResults=solveBasicProblem() ; 

return taskResults; 


} 





AS EEH Fork/JointE RER y =A iH) el: k-means RRRA, BoM 
算法 和 归并 排序 算法 。 


本 章 使 用 了 API 提 供 的 默认 ForkJoinPoo1， 并 且 创 建 了 一 个 新 的 
ForkJoinPool 对 象 ， 还 用 到 了 下 面 三 种 类 型 的 ForkJoinTasks。 


e RecursiveAction 类 ， 用 作 那 些 不 返回 结果 的 ForkJoinTask 的 其 
HE 
Ro 

。RecursiveTask 类 ， 用 作 那 些 返 回 结果 任务 的 基 类 。 

e CountedCompleter 类 ， 用 作 那 些 当 所 有 子 任 务 执行 完毕 后 需要 执 
行 某 个 方法 或 者 局 动 另 一 任务 的 任务 的 基 类 。 


下 一 章 将 介绍 在 处 理 超大 规模 数据 集 时 ， 如 何 使 用 MapReduce 编 程 方法 
运用 并 行 流 技术 获得 最 佳 性 能 。 











第 8 间 ”使 用 并 行 流 处 理 大 规模 数 
据 集 : MapReduce 模 型 


se ICE], Java 8 引入 的 最 重要 的 创新 是 lambda 表 达 式 和 流 API。 尝 是 
可 以 以 顺序 方式 或 者 并 行 方式 处 理 的 一 个 元 素 序 列 。 可 以 应 用 中 间 操 作 
转换 流 ， 然 后 执行 最 终 计 算 以 获得 预期 结果 《列表 、 数 组 、 数 值 等 ) 。 
本 章 将 讲述 下 述 主题 。 

。 流 的 简介 。 

。 第 一 个 例子 : 数值 综合 分 析 应 用 程序 。 

。 第 二 个 例子 : 信息 检索 工具 。 





8.1 Wi fal Jt 


流 就 是 一 个 数据 序列 “并 不 是 一 种 数据 结构 ) ， 可 以 以 顺序 方式 或 者 并 
发 方式 应 用 某 一 操作 序列 来 得 选 、 转 换 、 排 序 、 约 简 (reduce) 或 组 织 
这 些 元 素 ， 以 获得 茶 一 最 终 对 象 。 例 如 ， 如 果 有 一 个 人 有 员工 数据 的 
流 ， 可 以 使 用 该 流 。 


统计 员工 的 总 数 〈 这 是 一 项 开销 较 大 的 末端 操作 ) 。 
计算 在 茶 个 区 域 居住 的 所 有 员工 的 平均 薪酬 。 
获取 未 达到 目标 的 员工 列表 。 

。 执行 任何 涉及 全 部 或 部 分 员工 的 操作 。 


流 在 很 大 程度 上 受 函 数 式 编程 〈Scala 编 程 语言 提供 了 一 种 非常 相似 的 机 
Hl) 的 影响 ， 可 与 lambda 表达 式 一 起 使 用 。 流 API 类 似 于 C# 语 言 中 的 
LINQ (Language-Integrated Query 的 缩写 ) 查询 ， 在 某 种 程度 上 ， 还 可 
与 SQL 查询 相 比 较 。 


接 下 来 将 解释 流 的 基本 特征 ， 以 及 流 的 各 个 组 成 部 分 。 
8.1.1 流 的 基本 特征 
流 的 主要 特征 如 下 。 


。 沈 并 不 存储 其 元 素 。 流 从 它 的 源 获 取 元 素 ， 并 且 推 送 这 些 元 素 通 过 
构成 管道 的 所 有 操作 。 

可 以 以 并 行 方式 处 理 流 而 无 须 做 任何 额外 工作 。 创 建 流 时 ， 可 以 使 
用 stream() 方 法 创建 一 个 顺序 流 ， 或 者 使 用 parallelSstream( ) 方 
法 创建 一 个 并 行 流 。BaseStream 接 口 定义 了 sequential() 方 法 以 
获取 顺序 流 ， 也 定义 了 parallel() 方 法 以 获取 并 行 流 。 顺 序 流 与 
并 行 流 可 以 互相 转换 ， 并 且 不 限 次 数 。 需 要 考虑 的 是 ， 末 端的 流 操 
作 执行 完毕 时 ， 所 有 的 流 操作 都 将 按照 最 后 一 次 设置 进行 处 理 。 无 
法 命令 流 去 顺序 执行 一 些 操作 ， 并 发 执行 另 一 些 操 作 。 从 内 部 来 
看 ，Oracle JDK 9 和 Open JDK 9 中 的 并 行 流 采用 了 Fork/Join 框 架 的 
一 种 实现 来 执行 并 发 操作 。 

流 受 函数 式 编程 和 和 Scala 编程 语言 的 影响 很 大 。 你 可 以 使 用 新 的 
lambda 表 达 式 作为 定义 算法 的 方式 ， 这 样 的 算法 在 针对 流 的 操作 中 














执行 。 

流 不 可 重用 。 例 如 ， 从 某 个 值 列 表 中 获得 一 个 流 时 ， 该 流 只 能 使 用 
Ae MARERA LERI RE, WARREN 
IT o 

流 可 对 数据 做 延迟 处 理 。 除 非 必要 ， 人 否则 流 并 不 会 获取 数据 。 正 如 
稍 后 将 学 到 的 ， 每 个 流 都 有 一 个 初始 源 ， 有 一 些 中 间 操 作 ， 还 有 一 
个 末端 操作 。 只 有 末端 操作 需要 时 数据 才 会 被 处 理 ， 因 此 流 的 处 理 
直到 执行 末端 操作 时 才 会 开始 。 

不 能 以 不 同方 式 访问 流 的 元 素 。 采 用 某 种 数据 结构 时 ， 可 以 访问 其 
中 存储 的 某 个 特定 元 素 ， 例 如 指明 它 的 位 置 或 者 键 。 流 操作 通常 对 
元 素 做 统一 处 理 ， 因 此 你 有 的 只 有 元 素 本 有 身 。 你 无 法 知道 元 素 在 流 
中 的 位 置 及 其 相 邻 元 素 。 对 于 并 行 流 而 言 ， 可 以 以 任何 顺序 处 理 元 


流 操作 并 不 允许 修改 流 的 源 。 例 如 ， 如 果 使 用 一 个 列表 作为 流 的 
源 ， 那 么 可 以 将 处 理 结果 存放 在 新 列表 中 ， 但 是 不 可 以 添加 、 删 除 
或 者 蔡 换 初 始 列表 中 的 元 素 。 尽 管 听 起 来 很 受 限 制 ， 但 是 这 一 特性 
也 非常 有 用 ， 因 为 返回 从 内 部 Collection 创 建 的 流 时 不 用 担心 该 列表 
会 被 调用 者 修改 。 











8.1.2 流 的 组 成 部 分 
流 有 三 个 不 同 的 部 分 。 


生成 供 流 使 用 的 数据 的 来 源 。 
0 个 或 者 多 个 中 间 操 作 ， 这 些 操作 产生 男 一 个 流 作 为 输出 。 


生成 对 象 的 末端 操作 ， 该 对 象 可 以 是 一 个 简单 对 象 ， 也 可 以 是 一 个 
类 似 数组 、 列 表 或 者 哈 希 表 的 Collection。 也 可 以 存在 不 产生 任何 显 
式 结果 的 末端 操作 。 


流 的 来 源 


流 的 来 源 可 产生 将 由 Stream 对 象 处 理 的 数据 。 可 从 多 个 数据 源 创 
建 一 个 流 。 例 如 在 Java 8 中 ，Collection 接 口 包 括 了 生成 顺序 流 的 
stream() 方 法 ， 以 及 生成 并 行 流 的 parallelstream() 方 法 。 这 样 
生成 的 流 所 能 处 理 的 数据 可 以 来 自 几 乎 所 有 在 Java 中 实现 的 数据 结 
构 ， 例 如 列表 (ArrayList、LinkedList 等 ) 、 集 合 

(HashSet, EnumSet) ， 甚 至 并 发 数据 结构 








(LinkedBloFmackingDeque、PriorityBlockingQueue 等 ) 。 
男 一 种 可 以 生成 流 的 数据 结构 是 数组 。Array 类 含有 四 种 版 本 可 从 
数组 产生 流 的 stream() 方 法 。 如 果 将 一 个 int 数 值 型 数组 传递 给 该 
方法 ， 它 将 生成 Intstream。 这 实现 的 是 一 种 特殊 的 流 ， 用 于 处 理 
整 型 数值 (你 依然 可 以 使 用 Stream<Integer> 蔡 代 Intstream， 但 
是 性 能 可 能 会 比较 差 )。 


与 此 类 似 ， 还 可 以 从 long[] 数 组 或 double[] 数 组 创建 LongStream 

或 者 DoubleStream。 当 然 ， 如 果 问 stream( ) 方 法 传递 一 个 对 象 数 

组 ， 将 获得 一 个 同样 类 型 的 通用 流 。 在 本 例 中 并 没 

有 parallelstream() 方 法 ， 但 是 一 旦 获得 了 该 流 ， 就 可 以 调用 

a pen er anna ae 将 顺序 流转 换 成 为 并 
Wit o 


流 API 还 提供 了 另 一 个 有 用 的 功能 ， 即 可 以 生成 流 并 且 按 照 流 的 方 
式 处 理 目录 或 者 文件 中 的 内 容 。File 类 提供 了 多 种 使 用 流 处 理 文件 
的 方法 。 例 如 ，find() 方 法 返回 一 个 含有 Path 对 象 的 流 ， 其 中 含 
有 文件 树 中 满足 特定 条 件 的 文件 。1ist() 方 法 返回 一 个 Path 对 象 
流 ， 其 中 含有 关于 某 个 目录 的 内 容 。walk() 方 法 返回 一 个 Path 对 
象 流 ， 使 用 深度 优先 算法 处 理 目录 树 中 的 所 有 对 象 。 但 是 最 有 用 的 
方法 是 lines() 方 法 ， 它 创建 了 一 个 String 对 象 流 ， 其 中 含有 文件 
的 各 个 行 ， 这 样 就 可 以 使 用 一 个 流 处 理 文件 的 内 容 。 遗 憾 的 是 ， 以 
上 提 到 的 方法 在 并 行 处 理 时 性 能 都 很 糟糕， 除非 有 成 千 上 万 的 元 素 
(文件 或 者 行 )。 


同样 ， 可 以 使 用 Stream 接 口 提供 的 两 个 方法 来 创建 流 ， 

即 generate() 方 法 和 iterate() 方 法 。generate() 方 法 接收 由 某 
一 对 象 类 型 参数 化 的 Supplier 作 为 参数 ， 生 成 该 类 型 对 象 的 一 个 
无 限 顺序 流 。Supplier 接 口中 含有 get() 方 法 。 每 当 流 需要 一 个 新 
的 对 象 时 ， 就 会 调用 该 方法 来 获取 流 的 下 一 个 值 。 如 前 所 述 ， 流 以 
一 种 延迟 方式 处 理 数据 。 因 此 毫 无 疑问 ， 流 本 质 上 束 是 无 限 的 。 你 
可 以 使 用 其 他 方法 转换 该 无 限 流 。iterate( ) 方 法 与 之 类 似 ， 但 是 
对 于 这 种 情况 ， 该 方法 会 接收 一 个 种 子 和 一 个 UnaryOperator。 第 
一 个 值 是 将 UnaryOperator 应 用 于 该 种 子 的 结果 ， 第 二 个 值 是 
将 UnaryOperator 应 用 于 第 一 个 结果 所 产生 的 结果 ， 以 此 类 推 。 由 
eee 问题 ， 在 并 发 应 用 程序 中 应 该 尽 可 能 避免 使 用 该 方 

1 





























还 有 更 多 流 的 源 ， 如 下 所 示 。 


O 〇 


(0) 


(0) 


O 


String.chars(): 它 返 回 一 个 Intstream， 其 中 含有 String 
的 char 值 。 

Random.ints()、Random.doubles() 或 

# Random. longs(): 这 些 方法 分 别 返 回 
IntSstream、Doublestream 和 Longstream， 其 中 分 别 带 有 各 
目 类 型 的 伪 随 机 值 。 你 可 以 指定 随机 数 的 数值 范围 ， 或 者 你 想 
要 获得 的 随机 值 的 个 数 。 例 如 ， 你 可 以 使 用 new 
Random.ints(16,26) 来 生成 10 到 20 之 间 的 伪 随 机 数 。 
SplittableRandom: 该 类 提供 了 与 Random 类 相同 的 方法 ， 可 
生成 int、double 和 1long 型 的 伪 随 机 值 ， 但 是 该 类 更 适合 用 于 
并 行 处 理 。 可 以 查看 Java API 文 档 了 解 该 类 的 详细 情况 。 
Stream.concat() 方 法 : 该 类 接收 两 个 流 作为 参数 ， 并 且 创 


还 可 以 用 其 他 一 些 源 生 成 流 ， 但 是 我 们 认为 那些 来 源 并 不 重要 。 
。 中 间 操 作 


中 间 操 作 最 重要 的 特征 在 于 它 将 另 一 个 流 作为 结果 返回 。 输 入 流 和 
输出 流 的 对 象 可 以 是 不 同类 型 的 ， 但 是 中 间 操 作 总 可 以 生成 新 流 。 

一 个 流 可 以 有 0 个 或 者 多 个 中 间 操 作 。Sstream 接 口 提供 的 最 重要 的 
中 间 操 作 是 如 下 几 项 。 


(6) 


O° 


O 〇 


(0) 


fe) 


ie) 


O 〇 








distinct(): 该 方法 返回 一 个 含有 唯一 值 的 流 ， 所 有 重复 元 
素 都 将 被 去 除 。 

filter(): 该 方法 返回 一 个 含有 满足 特定 标准 的 元 素 的 流 。 

flatMap(): 该 方法 用 于 将 一 个 关于 流 的 流 〈 例 如 一 个 关于 列 
表 、 集 合 等 的 流 ) 转换 成 单个 流 。 

limit(): 该 方法 返回 一 个 流 ， 其 中 最 多 包含 指定 数目 的 原始 
TR, MEANA E EAEE AN. 

ney 该 方法 用 于 将 流 的 元 素 从 一 种 类 型 转换 成 男 一 种 类 


peek(): 该 方法 返回 相同 的 流 ， 只 是 需要 执行 一 些 代码 ， 通 
常用 于 记录 日 志 信 息 。 
skip(): 该 方法 忽略 了 流 的 前 若干 个 元 素 〈 有 具体 数值 以 参数 




















oO 


方式 传递 ) 。 
sorted(): 该 方法 对 流 的 元 素 进 行 排序 。 





。 末端 操作 


AR Si 


说 ， 


操作 将 某 个 对 象 作为 结果 返回 ， 而 绝 不 会 返回 一 个 流 。 一 般 


WK 
所 有 流 都 会 以 一 个 末端 操作 结束 ， 而 该 末端 操作 返回 的 是 整个 


| 


操作 序列 的 最 终结 果 。 最 重要 的 末端 操作 有 如 下 几 项 。 


O 〇 O O O Oo (6) 


(0) 


(0) 


O° 


collect(): 该 方法 提供 了 一 种 约 简 源流 中 元 素数 目的 方法 ， 
以 某 种 数据 结构 组 织 该 流 的 元 素 。 例 如 ， 你 可 以 按照 任何 标准 
对 流 的 元 素 进 行 分 组 。 

count(): 该 方法 返回 流 的 元 素数 目 。 

max(): 该 方法 返回 流 的 最 大 元 素 。 

min(): 该 方法 返回 流 的 最 小 元 素 。 
人 ee ae 


forEach()/forEachOrdered(): 这 两 个 方法 将 某 项 操作 应 用 
到 流 的 每 个 元 素 上 。 如 果 流 已 经 有 了 定义 好 的 顺序 ， 那 么 第 二 
个 方法 就 会 使 用 该 流 元 素 的 顺序 。 

findFirst()/findAny(): 如 果 要 找 的 元 素 存在 ， 这 两 个 方 
法 分 别 返 回 1 或 者 流 的 第 一 个 元 素 。 
anyMatch()/allMatch()/noneMatch(): 它们 接收 一 个 谓词 
作为 参数 ， 返 回 一 个 布尔 值 来 表明 流 中 是 否 有 任意 、 全 部 或 者 
没有 元 素 能 够 匹配 该 谓词 。 

toArray(): 该 方法 返回 一 个 含有 流 的 元 素 的 数组 。 











8.1.3 ”MapReduce 与 MapCollect 


MapReduce 是 一 种 编程 模型 ， 用 于 在 由 大 量 以 集群 方式 工作 的 机 器 构成 
N teers CAPS oR, Ga WB 
方法 实现 。 


e Map: 这 一 步 对 数据 进行 筛选 和 转换 。 
e Reduce: 这 一 步 对 数据 应 用 汇总 操作 。 


为 了 在 分 布 式 环境 中 执行 该 操作 ， 必 须 分 割 数据 ， 然 后 将 其 分 发 到 集群 
中 的 各 合 机 器 上 。 该 编程 模型 在 函数 式 编程 领域 已 经 使 用 很 长 时 间 了 。 





Google 近 期 基于 该 原理 设计 了 一 种 新 的 框架 ， 而 且 在 Apache 基 金 会 中 ， 
Hadoop 项 目 作 为 该 模型 的 开源 实现 广 受 欢迎 。 


Java 9 提供 的 流 操作 允许 编程 人 员 实 现 与 此 非常 类 似 的 结果 。Stream 接 

口 定 义 了 可 以 视 为 映射 函数 的 中 间 操 作 
Cmap()、filter()、sorted()、skip() 等 ) ， 而 且 提 供 了 

reduce() 方 法 作为 末端 操作 ， 其 目的 是 像 MapReduce 模 型 的 约 简 操 作 

那样 对 流 的 元 素 进行 约 简 。 


约 简 操 作 的 主要 思想 是 基于 前 面 的 中 间 结 果 和 流 元 素 创 建 一 个 新 的 中 间 
结果 。 约 简 的 蔡 代 方法 (也 称 为 可 变 约 简 ) 是 将 新 的 结果 项 整合 到 可 变 
容器 中 (例如 将 其 添加 到 ArrayList) 。 这 种 类 型 的 约 简 通过 
collect( ) 操 作 执 行 ， 因 而 称 之 为 MapCollect 模 型 。 

本 
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章 
模型 








将 介绍 如 何 使 用 MapReduce 模 型 ， 第 9 章 将 介绍 如 何 使 用 MapCollect 


8.2 第 一 个 例子 : 数值 综合 分 析 应 用 程序 


拥有 一 个 大 规模 数据 集 时 ， 最 常见 的 需求 之 一 就 是 对 其 元 素 进行 处 理 ， 
以 计算 某 些 特征 的 指标 。 例 如 ， 如 果 你 有 一 个 商店 的 已 售 产品 集合 ， 可 
以 计算 已 售 产品 的 数量 、 每 种 产品 的 销量 ， 或 者 每 个 客户 对 每 种 产品 的 
平均 购买 量 。 我 们 将 这 个 过 程 称 作 数 值 综合 分 析 。 


本 章 将 使 用 流 来 计算 UCI 机 器 学 习 资 源 库 的 Online Retail 数 据 集 的 一 些 指 
标 。 该 数据 集 存储 了 2010 年 1 月 12 日 到 2011 年 9 月 12 日 期 间 英 国 一 家 在 线 
零售 商店 的 交易 数据 。 


与 其 他 各 章 不 同 ， 本 例 先 介绍 使 用 流 的 并 发 版 本 程序 ， 然 后 介绍 如 何 实 
现 一 个 与 之 相当 的 串 行 版 程序 ， 以 验证 并 发 性 也 使 用 流 提升 了 性 能 。 正 
如 在 本 章 开头 提 到 的 ， 要 注意 并 发 处 理 对 于 编程 人 员 来 说 是 透明 的 。 


8.2.1 并 发 版 本 
数值 综合 分 析 应 用 程序 非常 简单 ， 其 组 成 部 分 如 下 所 示 。 


e Record: 该 类 定义 了 文件 中 每 条 记录 的 内 部 结构 。 它 定义 了 每 条 
记录 的 8 个 属性 以 及 用 于 获取 和 设 定 这 些 属性 值 的 get() 和 set() 方 
法 。 该 类 的 代码 非常 简单 ， 因 此 在 本 书 中 并 未 给 出 。 

e ConcurrentDataLoader: 该 类 用 于 加 载 含 有 数据 的 
Online_Retail.csv 文 件 ， 并 且 将 其 转换 成 一 个 Record 对 象 列 表 。 我 
们 将 使 用 流 来 加 载 数据 并 完成 转换 。 

e ConcurrentStatistics: 该 类 实现 了 用 于 数据 计算 的 各 项 操作 。 

e ConcurrentMain: 该 类 实现 了 main() 方 法 ， 来 调 
用 ConcurrentStatistics 类 的 各 项 操作 并 且 测 量 其 执行 时 间 。 


下 面 详细 介绍 一 下 其 中 后 三 个 类 。 




















01. ConcurrentDataLoader 类 


ConcurrentDataLoader 类 实现 了 load( ) 方 法 ， 该 方法 将 加 载 带 
有 Online Retail 数 据 集 的 文件 并 且 将 其 转换 成 一 个 Record 对 象 列 
表 。 首 先 ， 使 用 Files 类 的 readAllLines() 方 法 加 载 该 文件 ， 并 


且 将 其 内 容 转换 为 一 个 字符 串 列 表 。 该 文件 的 每 一 行 都 将 被 转换 为 
该 列表 的 一 个 元 素 。 


public class ConcurrentDataLoader { 


public static List<Record> load(Path path) throws IOException { 


System.out.println("Loading data"); 





List<String> lines = Files.readAllLines(path); 
然后 ， 通 过 对 该 法 应 用 必要 的 操作 以 得 到 Record 对 象 列表 。 


List<Record> records = lines.parallelStream() 
.Skip(1) .map(1 -> 1.split(";")) 


.map(t -> new Record(t)) 
.collect(Collectors.toList()); 





在 这 里 用 到 的 操作 有 如 下 几 项 。 
e parallelStream(): 创建 一 个 并 行 流 来 处 理 该 文件 的 所 有 








e skip(1): 忽略 该 流 的 第 一 项 ， 在 本 例 中 ， 即 文件 的 第 一 行 ， 
其 中 包含 了 文件 的 头 信息 。 

e map (1 > 1.split(";")): 对 String[] 数 组 中 的 各 个 字符 
串 进行 转换 ， 用 ;字符 分 割 各 行 。 使 用 lambda 表 达 式 ， 其 中 1 代 
表 输 入 参数 ， 而 1.split() 将 生成 关于 这 些 字 符 串 的 数组 。 在 
一 个 字符 串 的 流 中 调用 该 方法 ， 将 生成 一 个 string[] 流 。 

e map(t > new Record(t)): 使 用 Record 类 的 构造 函数 将 每 
个 字符 串 数组 转换 成 一 个 Record 对 象 。 使 用 一 个 lambda 表 达 
式 ， 其 中 t 代 表 字 符 串 数组 。 在 一 个 关于 String[ ] 的 流 中 调用 
该 方法 ， 生 成 一 个 Record 对 象 流 。 

e collect(Collectors.toList()): 该 方法 将 流转 换 成 一 个 
列表 。 第 9 章 会 更 详细 地 介绍 co1lect() 方 法 。 


如 你 所 见 ， 我 们 以 一 种 紧凑 、 优 雅 且 并 发 的 方式 完成 了 转换 ， 而 且 


并 设 有 用 到 任何 线程 、 任 务 或 者 框 名 。 最 后 ， 返 回 Record 对 象 列 
表 ， 如 下 所 示 : 


return records; 











p 


02. ConcurrentStatistics% 


ConcurrentStatistics 类 实现 了 对 数据 进行 微 积 分 计算 的 各 种 方 
有 七 种 操作 可 用 于 获得 有 关 数 据 集 的 信息 ， 下 面 分 别 进行 介 





。 来 自 英 国 的 客户 
该 方法 的 主要 目的 是 获得 每 位 英国 客户 订购 的 产品 数量 。 
该 方法 的 源 代码 如 下 : 








public static void customersFromUnitedKingdom(List<Record> record 
System. out. printIn ("> > kx k a a a a ak k k k k k k kk k K k k k K k K K KKK KKK KKK "Y s 
System.out.println("Customers from UnitedKingdom"); 
Map<String, List<Record>> map = records.parallelStream().filter 
r.getCountry().equals("the United 


Kingdom") ).collect(Collectors.groupingBy(Record::getCustomer) ) ; 


map.forEach((k, 1) -> System.out.println(k + ": " + l.size())); 


System OU. printing EE EEEk kkk E A kka kk kkk kkk ee EEEk RR EEI Y s 


} 


该 方法 接收 Record 对 象 的 列表 作为 输入 参数 。 首 先 ， 使 用 流 
获取 一 个 ConcurrentMap<String，List<Record>> 对 象 ， 
其 中 有 客户 ID 以 及 含有 每 个 客户 相关 记录 的 列表 。 该 流 首 先 从 
parallelstream() 方 法 创建 一 个 并 行 流 。 然 后 ， 使 

用 filter() 方 法 选择 那些 country 属 性 值 为 'the United 
Kingdom' 的 Record 对 象 。 最 后 ， 使 用 collect() 方 法 ， 传 
Collectors. groupingByConcurrent() 廊 法 的 功能 ， 按 
照 jJob 属 性 的 取 值 对 流 的 实际 元 素 进 行 分 组 。 需 要 考虑 的 

是 groupingByConcurrent() 方 法 是 无 序 的 收集 器 。 收 集 到 列 
表 中 的 记录 可 以 以 任意 顺序 排列 ， 而 非 原始 顺序 (和 简单 的 
groupingBy() 收 集 器 不 同 ) 。 


SH R e 就 可 以 使 用 forEach() 方 法 
将 信息 输出 到 屏幕 








。 来自 英国 的 订单 的 产品 数量 


该 方法 的 主要 目的 是 获得 来 自 英 国 的 订单 的 产品 数量 的 统计 信 
E (最 大 值 、 最 小 值 和 平均 值 〉。 


该 方法 的 源 代码 如 下 : 











public static void quantityFromUnitedKingdom(List<Record> records 


SYSTEM. outprint Lii (k Aka ak Estate tere k a aak ERE EER ERE RR E k E k Ae) 


System.out.println("Quantity from the United Kingdom"); 

DoubleSummaryStatistics statistics = records.parallelStream() 
.filter(r -> r.getCountry().equals("the United Kingdom" 
.collect(Collectors.summarizingDouble(Record: :getQuanti 


.out.println( "Min: " + statistics.getMin()); 
.out.println( "Max: " + statistics.getMax()); 


.out.println( "Average: " + statistics.getAverage()); 
POUL DPANELAGCEEEREE EECA CEREAL EEAEA EMER a A EE AREA EOE 





该 方法 接收 Record 对 象 列表 作为 输入 参数 ， 并 且 使 用 流 来 获 
取 带 有 统计 信息 的 DoubleSsummaryStatistics 对 象 。 首 先 ， 
使 用 parallelstream() 方 法 获取 并 行 流 。 然 后 ， 使 

用 filter() 方 法 获取 来 自 英 国 的 记录 。 最 后 ， 使 用 以 
Collectors .summarizingDouble( ) 为 参数 的 collect() 方 
法 获取 DoubleSsummaryStatistics 对 象 。 该 类 实现 了 
DoubleConsumer 接 口 ， 并 且 收 集 在 accept() 方 法 中 接收 到 的 
数值 的 统计 数据 。 该 流 的 collect() 方 法 在 内 部 调用 了 
accept() 方 法 。Java 还 提供 了 IntsummaryStatistics 类 和 
LongSummaryStatistics 类 ， 同 样 也 是 为 了 从 int 型 和 ]ong 
型 数值 中 获取 统计 数据 。 


本 例 使 用 max()、min() 和 average() 方 法 分 别 获 取 最 大 值 、 
最 小 值 和 平均 值 。 


。 订购 产品 的 国家 


该 方法 的 主要 目的 是 获取 订购 了 ID 为 85123A 的 产品 的 国家 列 


[e] 





该 方法 的 源 代 码 如 下 : 


public static void countriesForProduct(List<Record> records) { 


SYSTEM OUT. prRint]n( 27 o tt Pete s kak akak eak EEE ee EL ALE EEE kk k k 1 Ye 


System.out.println("Countries for product 85123A"); 


records.parallelStream().filter(r -> r.getStockCode() 
.equals("85123A")).map(r -> r 
.getCountry()).distinct().sorted() 


. forEachOrdered(System.out: :println) ; 
Sys temsoüt print LAC Settee est ease TREC RESP E ESTEE EEE Se REE ES 


} 


该 方法 接收 一 个 Record 对 象 列 表 作 为 输入 参数 ， 并 且 使 

用 parallelStream() 方 法 获取 并 行 流 。 然 后 ， 使 用 filter() 
方法 仅 获取 与 该 产品 相关 的 记录 。 然 后 ， 使 用 map() 方 法 获取 
一 个 String 对 象 流 ， 其 中 含有 与 记录 相关 的 国家 名 称 。 借 助 

distinct() 方 法 ， 仅 选取 唯一 值 ， 而 借助 sorted() 方 法 ， 可 
以 按照 字母 顺序 对 这 些 值 进行 排序 。 


最 后 ， 使 用 forEachordered() 方 法 输出 结果 。 请 注意 ， 此 处 
不 要 使 用 forEach() 方 法 ， 因 为 它 输 出 的 结果 没有 特定 顺序 ， 
这 将 使 sorted() 这 一 步 的 工作 成 为 无 用 功 。 元 素 顺 序 并 不 重 
要 时 ，forEach( ) 操 作 就 很 有 用 了 。 对 于 并 行 流 来 说 ， 它 比 

forEachordered() 方 法 的 处 理 速度 更 快 。 


产品 数量 

使 用 流 时 ， 最 常见 的 错误 之 一 是 试图 重用 流 。 我 们 会 展示 这 种 
做 法 所 产生 的 错误 结果 。 该 方法 的 主要 目的 是 获取 ID 

为 85123A 的 产品 记录 相关 的 最 大 和 最 小 产品 数目 。 

该 方法 的 第 一 个 版 本 是 尝试 重用 一 个 流 ， 其 源 代码 如 下 : 




















public static void quantityForProduct(List<Record> records) { 


Systems out PRINCE LAC Settee sete ka k ee EERE REESE RARER EEE eS) S 


System.out.println("Quantity for Product"); 


IntStream stream = records.parallelStream().filter(r -> r 


.getStockCode().equals("85123A")) 
.mapToInt(r -> r.getQuantity()); 


System.out.println("Max quantity: " + stream.max().getAsInt()); 


System.out.println("Min quantity: ”+ stream.min().getAsInt()); 
Sy.stem out printIn ("A E A aka akak ak eee 7 aak kak kR k kakak a k HE kak k Ekk E kkk k IY eS 


} 








该 方法 接收 一 个 Record 对 象 列表 作为 输入 参数 。 首 先 ， 使 用 

该 列表 创建 一 个 Intstream 对 象 。 借 助 parallelStream() 方 
法 ， 创 建 一 个 并 行 流 。 然 后 ， 使 用 filter() 方 法 获取 与 产品 

相关 的 记录 ， 使 用 mapToInt() 方 法 将 一 个 Record 对 象 的 流转 
换 成 一 个 Intstream 对 象 ， 用 getQuantity() 方 法 的 值 奉 换 每 
AP Bg 


借助 max() 方 法 ， 可 以 用 该 流 获 取 最 大 值 ， 而 借助 min() 方 
法 ， 可 以 获取 最 小 值 。 如 果 再 次 执行 该 方法 ， 将 立刻 得 

到 IllegalStateException 寞 常 ， 并 且 获 得 “已 经 对 流 进 行 操 
作 ? 或 者 “ 流 已 关闭 ”的 消息 。 

可 以 通过 创建 两 个 不 同 的 流 来 解决 这 一 问题 ， 其 中 一 个 流 用 于 
获取 最 大 值 ， 而 男 一 个 流 用 于 获取 最 小 值 。 这 一 供 选 方案 的 源 
代码 如 下 所 示 : 








public static void quantityForProductOk(List<Record> records) { 


SYSTEM. OUT printi n( EEE EE kkk tere RET CEREALS REE ERE Se eee Y s 


System.out.println("Quantity for Product Ok"); 

int value = records.parallelStream().filter(r -> 
r.getStockCode().equals("85123A")).mapToInt(r -> r.getQuantity() ) 
.getAsInt(); 


System.out.println("Max quantity: " + value); 


value = records.parallelStream().filter(r -> r.getStockCode() 
.equals("85123A")).mapToInt(r -> r 
.getQuantity()).min().getAsInt(); 


System.out.println("Min quantity: " + value); 
System outprint In( EAE Ak k Aka ak a AA a A K k ka Aea E E k kE kk kak ee TE Y o 





另 一 个 供 选 方案 是 使 用 summaryStatistics() 方 法 获取 
IntSummaryStatistics 对 象 ， 这 与 上 文 所 给 出 的 方法 相同 。 


多 个 数据 筛选 器 
该 方法 的 主要 目标 是 获取 至 少 满足 如 下 条 件 之 一 的 记录 数 。 


o quantity 属 性 值 大 于 50 的 记录 数 。 
o unitPrice 属 性 值 大 于 10 的 记录 数 。 


实现 该 方法 的 一 种 解决 方案 是 实现 一 个 篇 选 器 来 检验 元 素 是 否 
满足 这 些 条 件 。 夯 一 种 解决 方案 可 以 借助 Stream 接口 提供 的 
concat() 方 法 。 源 代码 如 下 所 示 : 








public static void multipleFilterData(List<Record> records) { 


SYSTEM: outprint Li (Kk ak ak ak a tte see treet REST ERASERS k k EL kk Bel) e 


System.out.println("Multiple Filter"); 


Stream<Record> stream1 = records.parallelStream() 

.filter(r -> r.getQuantity() > 
Stream<Record> stream2 = records.parallelStream() 

.filter(r -> r.getUnitPrice() > 
Stream<Record> complete = Stream.concat(stream1, stream2); 


Long value = complete.parallel().unordered().map(r -> r 
.getStockCode()).distinct().cou 


System.out.println( "Number of products: " + value); 
System- oútprintIn( ETEA EE kkk k EEk KEk kk k kak kkk kE k EE eee kE kE TTY 





该 方法 接收 Record 对 象 列 表 作 为 输入 参数 。 首 先 ， 创 建 两 个 
流 ， 其 中 分 别 含 有 满足 上 述 条 件 的 元 素 ， 然 后 使 用 concat() 
方法 将 它们 合并 成 单一 的 流 。concat() 方 法 创建 的 流 只 是 将 
第 二 个 流 的 元 素 直接 跟 到 第 一 个 流 的 元 素 后 。 出 于 这 种 原因 ， 
对 于 最 后 的 流 ， 可 以 使 用 parallel() 将 其 转换 成 一 个 并 行 
流 ， 使 用 unordered() 方 法 获得 一 个 未 排序 的 流 以 便 在 对 并 行 
流 应 用 distinct() 方 法 时 获得 更 好 的 性 能 ， 使 用 map() 方 法 
将 每 条 记录 转换 为 一 个 含有 产品 stockCode 的 字符 串 值 ， 使 
用 distinct() 方 法 获得 唯一 值 ， 使 用 count() 方 法 获得 流 中 
的 元 素数 。 





这 并 不 是 最 优 的 解决 方案 。 我 们 只 是 用 它 展示 了 concat() 和 
distinct() 方 法 如 何 工 作 。 可 以 使 用 下 面 的 代码 以 更 优 的 方 
式 实现 同样 的 结果 。 


public static void multipleFilterDataPredicate (List<Record> reco 


SYSTEM OUT LPRINtLNG OF A akak akaa a kak ak eT eA ETE Ek ka ATE k Eak kk eee k L Ye 


System.out.println("Multiple filter with Predicate"); 


Predicate<Record> p1 = r -> r.getQuantity() > 50; 
Predicate<Record> p2 = r -> r.getUnitPrice() > 10; 


Predicate<Record> pred = Stream.of(p1, p2) 
.reduce(Predicate::or).get(); 


long value = records.parallelStream().filter(pred).count(); 


System.out.println("Number of products: " + value); 
System outs pr intin (EAE AE a akk kaa gk Aa k kok kak ESET ECE EEk kE kE TY a 





我 们 创建 一 个 含有 两 个 谓词 的 流 ， 并 且 通 过 Predicate: :or 操 
作 约 简 ， 进 而 构建 复合 谓词 ， 当 任何 一 个 输入 谓词 为 true 时 ， 
该 谓词 都 为 true。 也 可 以 使 用 Predicate: :and 约 简 操作 构建 
Wa 
入 true。 





hp A 46 E. 
BX pay XL EE 


该 方法 的 主要 目的 是 获取 发 货 量 最 高 的 10 张 发 货 单 。 


首先 ， 构 建 一 个 Map， 其 键 为 及 货 早 的 D， 其 值 为 与 友 贷 单 相 
关联 的 所 有 记录 的 列表 。 


public static void getBiggestInvoiceAmmounts(List<Record> records 


SYSTEM. outprint Lr (kkka ak 4 k a ak ka a akak Ak ak ak a SEA ES ES k E k K Ek kkk Y e 


System.out.println("Biggest Invoice Ammounts"); 


Map<String, List<Record>> map = records.stream().unordered() 
.parallel().collect(Collectors 
.groupingByConcurrent(r -> r.getId 





使 用 unordered ( ) 方 法 删除 列表 现 有 的 顺序 ， 以 便 在 并 行 操作 
时 获得 更 好 的 性 能 。 然 后 ， 使 用 parallel() 方 法 将 该 流转 换 
成 并 行 流 ， 最 后 使 用 采用 了 groupingByConcurrent() 收 集 器 
的 collect() 方 法 获得 最 终 的 Map。 





第 二 步 ， 创 建 关 于 Invoice 对 象 的 ConcurrentLinkedDeque 
数据 结构 。 这 部 分 源码 如 下 所 示 : 





ConcurrentLinkedDeque<Invoice> invoices= new ConcurrentLinkedDequ 
map.values().parallelStream().forEach( list -> { 
Invoice invoice = new Invoice(); 
invoice.setId(list.get(@).getId()); 
double ammount=list.stream().mapToDouble(r -> r.getUnitPrice()* 


.getQuantity()). 
invoice.setAmmount (ammount ) ; 
invoice.setCustomerId(list.get(@).getCustomer()); 


invoices.add(invoice); 


}); 


这 里 我 们 有 两 个 流 。 首 先 ， 使 用 并 行 流 处 理 上 一 个 Map 中 的 所 
有 值 。 对 于 每 个 含有 发 货 单 记录 的 列表 ， 使 用 发 贷 单 ID、 客 户 
ID 和 发 货 总 量 等 属性 创建 一 个 Invoice 对 象 。 为 了 计算 每 个 发 
货 单 的 总 量 ， 使 用 另 一 个 流 和 mapToDouble() 方 法 将 每 条 记录 
更 改 为 每 种 产品 的 单位 数量 和 unitpPrice 属 性 ， 并 且 使 

用 sum( ) 方 法 对 最 终 Stream 中 的 所 有 值 进行 汇总 。 之 所 以 使 
用 ConcucrrentLinkedDeque 结 构 ， 是 因为 它 允 许 进 行 并 发 插 
入 操作 并 且 不 会 引起 数据 竞争 ， 而 这 一 特性 对 于 当前 情况 非常 


重要 。 


最 后 ， 获 取 发 货 量 最 高 的 10 张 发 货 单 ， 这 部 分 代码 如 下 所 示 : 








System.out.println("Invoices: "+invoices.size()+": "+map.getCla 
invoices.stream().sorted(Comparator.comparingDouble 
(Invoice: :getAmmount).reversed()).limit(10).forEach(i - 


System.out.println("Customer: "+i.getCustomerId( 


"; Ammount: "+ i.getAmmount ( 
System.out ` ORANEL EEEE EREE REA EE LEREALE LEAR EERE REA EE EEA) 2 


} 





使 用 ConcurrentLinkedDeque 数 据 结构 创建 流 。 使 





用 sorted() 方 法 进行 排序 ， 以 将 发 货 量 最 大 的 发 货 单 排 在 最 
前 面 ， 将 发 货 量 较 小 的 发 货 单 放 在 后 面 。 再 使 用 Limit() 方 法 
选取 发 贷 量 最 高 的 10 张 发 货 蛙 ， 并 且 使 用 forEach() 方 法 将 它 
们 输出 到 控制 台 。 这 里 是 对 排序 后 的 流 进行 操作 ， 因 此 采用 了 
顺序 流 。 采 用 并 发 流 并 不 会 带 来 更 好 的 性 能 。 


单价 在 1 到 10 之 间 的 产品 
该 方法 的 主要 目标 是 获取 文件 中 单价 在 1 到 10 之 间 的 产品 数 。 
该 方法 的 源 代码 如 下 所 示 : 








public static void productsBetweenland1@(List<Record> records) { 


System. out. println ("> > > > ak ent ak ak ak k ee ak k 3k ee K K SESE k k LE 2K K K K KK DEERE |S 


System.out.println("Products between 1 and 10"); 
int count=records.stream().unordered().parallel().filter(r -> ( 


.getUnitPrice() >=1 ) && (r.getUnitPrice() 
.map(i -> i.getStockCode()).distinct() 
.mapToInt(a -> 1).reduce(@, Integer: :sum); 


System.out.println("Products between 1 and 10: "+count); 
System out printinge EE (oe tte er ce EAE kk kk Eka ee ee EEEE eee ly 





该 方法 接收 Record 对 象 列表 作为 输入 参数 ， 并 且 使 

用 stream()、unordered() 和 parallel() 方 法 获取 一 个 并 行 
流 ， 且 不 受 该 流 现 有 的 排序 限制 。 然 后 ， 使 用 filter() 方 法 
仅 选取 unitPrice 值 在 1 到 16 之 间 的 记录 。 接 下 来 ， 使 

用 map() 方 法 将 每 个 记录 蔡 换 为 其 stockCode 属 性 的 值 。 之 
后 ， 使 用 distinct() 方 法 删除 重复 记录 ， 并 且 使 用 map() 方 
法 将 每 个 取 值 转换 为 值 1。 最 后 ， 使 用 reduce() 方 法 将 所 有 1 
值 汇总 起 来 并 且 返 回 最 终结 果 。 


reduce( ) 方 法 的 第 一 个 参数 是 其 ID， 第 二 个 参数 是 用 于 从 流 
的 所 有 元 素 中 获取 单个 值 的 操作 。 


本 例 使 用 Integer: :sum 操作。 第 一 次 是 对 初始 值 和 流 的 第 一 
个 值 求 和 ， 第 二 次 则 是 对 第 一 次 求 和 的 结果 与 流 的 第 二 个 值 进 
行 求 和 ， 以 此 类 推 。 





03. ConcurrentMain2 


ConcurrentMain 类 实现 了 main() 方 法 ， 用 于 测试 
ConcurrentStatistic 类 。 首 先 ， 实 现 measure( ) 方 法 ， 以 测量 
一 个 任务 的 执行 时 间 。 





public class ConcurrentMain { 
static Map<String, List<Double>> totalTimes = new LinkedHashMap<>() ; 
static List<Record> records; 


private static void measure(String name, Runnable r) { 


long start = System.nanoTime(); 

r.run(); 

long end = System.nanoTime() ; 

totalTimes.computeIfAbsent(name, k -> new ArrayList<>()) 
.add((end - start) / 1 666 900.0); 





使 用 一 个 Map 存 放 每 个 方法 的 执行 时 间 。 每 个 方法 将 执行 10 次 ， 以 
观察 在 第 一 次 执行 之 后 执行 时 间 如 何 缩减 。 然 后 ， 给 出 main() 方 
法 的 代码 。 它 使 用 measure() 方 法 度量 每 个 方法 的 执行 时 间 并 且 将 
该 过 程 重复 16 次 。 





public static void main(String[] args) throws IOException { 
Path path = Paths.get("data\\Online Retail.csv"); 


for (int i = ð; i < 10; i++) { 

measure( "Customers from UnitedKingdom", () -> ConcurrentStatistics 
. customersFromUnitedKingdom(records) ); 

measure( "Quantity from UnitedKingdom", () -> ConcurrentStatistics 
.quantityFromUnitedKingdom(records) ); 

measure("Countries for Product", () -> ConcurrentStatistics 
. countriesForProduct (records) ); 

measure( "Quantity for Product", () -> ConcurrentStatistics 
.quantityForProductOk(records) ); 

measure("Multiple Filter for Products", () -> ConcurrentStatistics 
.multipleFilterData(records) ); 

measure("Multiple Filter for Products with Predicate", () -> 
ConcurrentStatistics.multipleFilterDataPredicate(records) ) 

measure("Biggest Invoice Ammount", () -> ConcurrentStatistics 
.getBiggestInvoiceAmmounts(records) ); 

measure("Products Between 1 and 10", () -> ConcurrentStatistics 
. productsBetweenland1@(records) ); 











最 后 ， 将 所 有 执行 时 间 和 平均 执行 时 间 输 出 到 控制 台 ， 如 下 所 示 : 


.stream().map(t -> String.format("%6.2f", t)) 
.collect(Collectors.joining(" ")), 
.stream().mapToDouble(Double: :doubleValue) 


.average().getAsDouble())); 





8.2.2 $T% 


在 本 例 中 ， 串 行 版 和 并 发 版 几乎 相同 ， 只 是 ; 各 对 parallelStream( ) 方 
法 的 调用 蔡 换 成 了 对 stream() 方 法 的 调用 ， 以 便 获 得 顺序 流 而 非 并 行 
流 。 我 们 还 要 删除 在 一 个 样 例 中 用 到 的 对 parallel() 方 法 的 调用 ， 并 
人 
Ve 


8.2.3 ”对比 两 个 版 本 
执行 两 个 版 本 的 操作 ， 以 测试 并 行 流 是 否 可 以 提供 更 好 的 性 能 


使 用 JMH 框 架 执 行 该 操作 ， 访 框架 允许 你 在 Java 中 实现 微型 基准 测试 。 
使 用 面 同 基准 测试 的 框架 是 比较 好 的 解决 方案 ， 它 直接 

用 currentTimeMillis() 或 者 nanoTime() 方 法 度量 时 间 。 在 两 种 不 同 
的 架构 上 分 别 执行 这 些 示例 10 次 。 


。 一 台 计 算 机 配置 了 Intel Core i5-5300 处 理 器 、Windows 7 操作 系统 和 
16GB 的 RAM。 访 处理 器 有 两 个 核 ， 且 每 个 核 可 以 执行 两 个 线程 ， 
这 样 就 有 四 个 并 行 线程 。 

。 另 一 台 计 算 机 配置 了 AMD A8-640 处 理 器 、Windows 10 操 作 系 统 和 
8GB 的 RAM。 该 处 理 器 有 四 个 核 。 


以 下 便 是 运行 结果 ， 以 坚 秒 为 单位 。 





Intel 架 构 


不 


操作 





—— 81.612 70.853 358.488 174.395 


a 
介 于 0 到 10 之 间 的 产品 
产品 总 量 24.614 

英国 订购 的 总 量 


























我 们 可 以 看 到 并 行 流 总 是 比 串 行 流 具 有 更 好 的 性 能 。 下 面 给 出 的 是 所 有 


示例 的 加 速 比 。 








订购 产品 的 国家 

















单价 介 于 1 到 10 之 间 的 产品 





英国 订购 的 总 量 








8.3 ”第 二 个 例子 : 信息 检索 工具 
根据 维基 百科 ， 信 息 检 索 的 定义 如 下 。 
“从 信息 资源 集合 中 获取 与 某 一 信息 需求 相关 的 信息 资源 


通常 ， 信 息 资源 是 一 个 文档 集合 ， 而 信息 需求 则 是 一 个 概述 了 需求 的 单 
J 为 了 快速 搜索 文档 集合 ， 我 们 采用 一 种 名 为 倒 排 索引 的 数据 结 

构 。 该 结构 存放 了 文档 集合 中 的 所 有 单词 ， 而 且 对 于 每 个 单词 ， 都 有 一 
A ae 去 单词 文档 的 列表 。 在 第 5 章 中 我 们 已 经 构建 了 一 个 文档 集合 的 
合 排 索引 ， 该 文档 集合 包含 有 100 673 个 有 关 电 影 信息 的 维基 百科 页 

面 。 我 们 已 将 每 个 维基 百科 页 面 转换 成 一 个 文本 文件 。 该 倒 排 索引 存放 
在 一 个 文本 文件 中 ， 且 该 文件 的 每 一 行 都 包含 单词 、 单 词 在 文档 中 出 现 
的 频率 、 所 有 出 现 了 该 单词 的 文档 以 及 在 该 文档 中 的 tfxidf 属 性 。 这 

ee 例如 ， 该 文件 中 的 一 行 如 下 

ZN: 



































velankanni:4,18005302.txt:10.13,20681361.txt:10.13,45672176.txt:10 


13,6592085.txt:10.13 





这 一 行 包 含 了 单词 velankanni， 它 的 DF 值 为 4。 它 在 文档 18005302.txt 中 
出 现 且 tfxidf 值 为 10.13， 在 20681361.txt 文 档 中 出 现 且 tfxidf 值 为 
10.13， 在 45672176.txt 文 档 中 出 现 且 tfxidf 值 为 10.13， 在 6592085.txt 文 
档 中 出 现 且 tfxidf 值 也 为 10.13。 


o 流 API 来 实现 不 同 版 本 的 搜索 工具 ， 并 且 获 取 有 关 倒 排 索引 


8.3.1 约 简 操作 简介 

正如 本 章 前 面 提 到 的 ， 约 简 操 作 将 汇总 操作 应 用 于 流 的 元 素 以 生成 一 个 
单独 的 汇总 结果 。 该 结果 可 以 与 流 的 元 素 类 型 相同 ， 也 可 以 不 同 。 计 算 
一 个 数值 流 的 和 就 是 reduce( ) 操 作 的 一 个 简单 示例 。 

流 API 提 供 了 reduce( ) 方 法 来 实现 约 简 操作 。 该 方法 有 下 述 三 个 版 本 。 





e reduce(accumulator): 该 版 本 将 accumulator 函 数 应 用 于 流 的 
所 有 元 素 。 在 这 种 情况 下 没有 初始 值 。 它 返回 一 个 含 
有 accumulator 函 数 最 终结 果 的 0ptional 对 象 ， 或 者 当 该 流 为 空 
时 返回 一 个 空 的 Optional 对 象 。accumulator 函 数 必须 是 一 
个 associative 函 数 ， 它 实现 了 BinaryOperator 接 口 。 两 个 参数 
HET TOR 也 可 以 是 之 前 调用 accumulator 函 数 所 返回 的 部 
分 结 来 。 

。reduce(identity,accumulator): 当 最 终结 果 和 流 的 元 素 类 型 
相同 时 ， 必 须 采 用 该 版 本 。 标 识 值 必须 为 accumulator 函 数 的 标识 
值 。 也 就 是 说 ， 如 果 将 accumulator 函 数 应 用 于 标识 值 和 任意 
值 Y， 必 须 返 回 同样 的 值 Y: accumulator(identity,V)=V。 该 标 
识 值 用 作 accumulator 函 数 的 第 一 个 结果 ， 如 有 果 流 没有 元 素 ， 则 该 
值 作 为 返回 值 。 正 如 在 另 一 版 本 中 一 样 ，accumulator 必 须 是 一 个 
SEPLBinaryOperatori#x O associative rk Av. 

e reduce(identity, accumulator, combiner): 当 最 终结 果 与 
流 的 元 素 为 不 同类 型 时 ， 必 须 使 用 该 版 本 。 标 识 值 必须 
是 combiner 函 数 的 标识 。 也 就 是 
说 ，combiner(identity,v)=v。 这 里 的 combiner 函 数 必须 
accumulator K ast Ze, Ellcombiner(u, accumulator 
(identity,v))=accumulator(u,v). accumulator K% H ja 
WERMM RAE eG Ro Combiner RACK 
用 两 个 局 部 结果 来 生成 男 一 个 局 部 结果 。 这 两 个 函数 必须 均 
是 associative 子 数 ， 但 是 在 这 种 情况 下 ，accumulator 函 数 
是 BiFunction 接 口 的 实现 ， 而 combiner 函 数 是 Binary0perator 
接口 的 实现 。 


reduce() 方 法 有 一 个 局 限 。 如 前 所 述 ， 该 函数 必须 返回 单个 值 。 你 不 
应 该 使 用 reduce( ) 方 法 来 生成 一 个 Collection 对 象 或 者 一 个 复杂 对 
象 。 首 要 问题 在 于 性 能 。 正 如 流 API 的 文档 中 所 说 明 的 ，accumulator 
函数 每 处 理 一 个 元 系 都 会 返回 一 个 新 值 。 如 果 你 的 accumulator 函 数 处 
理 的 是 集合 ， 那 么 每 当 它 处 理 一 个 元 素 时 都 会 创建 一 个 新 的 集合 ， 这 样 
cia Alas 另 一 个 问题 是 ， 如 果 采 用 并 行 流 ， 那 么 所 有 的 线程 都 要 共 
享 标识 值 。 


如 果 该 值 是 一 个 可 变 对 象 ， 例 如 一 个 collection， 那 么 所 有 的 线程 都 
将 作用 于 相同 的 Collection 之 上 。 这 样 就 有 悖 于 reduce() 操 作 的 初衷 
了 。 此 外 ，combiner() 方 法 总 是 接收 两 个 相同 的 Collection (所 有 的 





线程 仅 作 用 于 一 个 Collection 之 上 ) 作为 参数 ， 这 也 有 悖 于 reduce() 
操作 的 初 囊 。 


如 果 要 实现 一 个 可 生成 Collection 或 复杂 对 象 的 约 简 操作 ， 有 如 下 两 
个 供 选 方案 。 


。 使 用 collect() 方 法 应 用 可 变 约 简 操 作 。 第 9 章 将 详细 介绍 如 何在 
不 同 的 场景 下 使 用 该 方法 。 

。 创建 集合 并 且 使 用 forEach() 方 法 ， 以 便 使 用 所 需 值 填 
充 Collection。 


本 例 将 使 用 reduce( ) 方 法 来 获取 有 关 倒 排 索引 的 信息 ， 使 
用 forEach() 方 法 将 该 索引 约 简 成 与 菜 一 查询 相 关 的 文档 列表 。 


8.3.2 ”第 一 种 方式 : 全 文档 查询 


在 第 一 种 方式 中 ， 将 用 到 与 某 一 单词 相关 的 所 有 文档 。 该 搜索 过 程 的 实 
现 步 又 如 下 。 


。 在 倒 排 索引 中 选取 与 查询 中 单词 相对 应 的 行 。 

。 将 所 有 的 文档 列表 组 合成 单个 列表 。 如 果 一 个 文档 与 两 个 或 者 多 个 
单词 相关 ， 那 么 将 在 该 文档 中 出 现 的 这 些 单 词 的 tfxidf 值 相 加 ， 
得 到 该 文档 最 终 的 tfxidf 值 。 如 果 一 个 文档 仅 与 一 个 单词 相关 ， 
那么 该 单词 的 tfxidf 值 束 是 该 文档 的 最 终 tfxidf 值 。 

。 使 用 文档 的 tfxidf 值 自 高 到 低 进 行 排序 。 

。 将 tfxidf 值 排名 前 100 的 文档 展现 给 用 户 。 


这 一 版 本 已 经 在 ConcurrentSearch 类 的 basicSsearch() 方 法 中 实现 。 
该 方法 的 源 代码 如 下 所 示 : 


























public static void basicSearch(String query[]) throws IOException { 


Path path = Paths.get("index", "invertedIndex.txt"); 
HashSet<String> set = new HashSet<>(Arrays.asList(query) ); 
QueryResult results = new QueryResult(new ConcurrentHashMap<>()); 


try (Stream<String> invertedIndex = Files.lines(path)) { 


invertedIndex.parallel().filter(line -> set 
.contains(Utils.getWord(line) )) 


.flatMap(ConcurrentSearch: :basicMapper) 
.forEach(results: : append) ; 


results.getAsList().stream().sorted().limit(100) 
. forEach(System. out: :println) ; 


System.out.println("Basic Search Ok"); 





我 们 接收 一 个 含有 查询 单词 的 字符 串 对 象 数 组 。 首 先 ， 将 该 数组 转换 成 
一 个 集合 。 然 后 ， 使 用 一 个 try-with-resources 流 处 理 
invertedImndex.txt 文 件 的 各 行 ， 正 是 该 文件 存放 了 倒 排 索引 。 由 于 采用 了 
try-with-resources 流 ， 因 此 不 需要 担心 文件 的 打开 和 关闭 。 对 该 流 
的 聚合 操作 将 会 生成 一 个 含有 相关 文档 的 QueryResult 对 象 。 可 以 使 用 
下 述 方法 获取 该 列表 。 


parallel(): 首先 ， 获 取 一 个 并 行 流 以 提高 搜索 过 程 的 性 能 。 
filter(): 选取 将 集合 中 单词 与 查询 中 单词 相关 联 的 

行 。Utils.getNord() 方 法 将 获取 该 行 的 单词 。 

flatMap(): 将 字符 串 流 〈 其 中 每 个 字符 串 都 是 倒 排 索引 中 的 一 
ÍT) 转换 成 一 个 Token 对 象 流 。 每 个 Token 对 象 包含 了 文件 中 一 个 
单词 的 tfxidf 值 。 对 于 每 一 行 ， 生 成 的 Token 对 象 数 与 包含 该 单词 
的 文件 数 相同 。 

forEach(): 使 用 该 类 的 add( ) 方 法 添加 每 个 Token 对 象 ， 进 而 生 
成 QueryResult 对 象 。 








一 旦 创建 了 QueryResult 对 象 ， 则 要 使 用 以 下 方法 创建 男 一 个 流 ， 以 便 
获得 最 终结 果 列 表 。 


getAsList(): QueryResult 对 象 返回 一 个 含有 相关 文档 的 列表 。 
stream(): 用 于 创建 一 个 处 理 该 列表 的 流 。 

sorted(): 用 于 按照 文档 的 tfxidf 值 排列 文档 列表 。 

limit(): 用 于 获得 前 100 个 结果 。 

forEach(): 用 于 处 理 100 个 结果 并 且 将 信息 输出 到 屏幕 。 








下 面 详细 介绍 一 下 在 本 例 中 用 到 的 辅助 类 和 方法 。 


01. 


basicMapper() 方 法 


02. 


该 方法 将 一 个 字符 串 流转 换 成 一 个 Token 对 象 流 。 稍 后 将 详细 介 
绍 ，Token 中 存放 文档 中 一 个 单词 的 tfxidf 值 。 该 方法 接收 一 个 字 
符 串 〈 倒 排 索引 中 的 一 行 ) 。 它 将 一 行 分 割 成 若干 个 Token， 并 且 
生成 与 单词 所 在 文档 数 相同 的 Token 对 象 。 该 方法 

在 ConcurrentSearch 类 中 实现 ， 其 源 代码 如 下 : 





public static Stream<Token> basicMapper(String input) { 
ConcurrentLinkedDeque<Token> list = new ConcurrentLinkedDeque() ; 
String word = Utils.getWord(input) ; 
Arrays.stream(input.split(",")).skip(1).parallel() 


.forEach(token -> list.add(new Token(word, token))); 


return list.stream(); 


} 





首先 ， 创 建 一 个 ConcurrentLinkedDeque 对 象 来 存储 Token 对 
象 。 然 后 ， 使 用 split() 方 法 分 割 字符 串 ， 并 且 使 用 Arrays 类 的 
stream( ) 方 法 生成 流 。 跳 过 第 一 个 元 素 〈 其 中 包含 单词 的 信 

A) ， 并 且 以 并 行 方式 处 理 剩 下 的 Token。 对 于 每 个 元 素 ， 均 创建 
一 个 新 的 Token 对 象 ( 将 该 单词 和 具有 file:tfxidf 格 式 的 Token 
传递 给 构造 函数 ) ， 并 且 将 其 添加 到 该 流 。 最 后 ， 使 

用 ConcurrenLinkedDeque 对 象 的 stream( ) 方 法 返回 一 个 流 。 








Token% 


如 前 所 述 ， 该 类 存储 了 文档 中 茶 一 单词 的 tfxidf 值 。 这 样 ， 该 类 
就 有 三 个 属性 用 于 存放 这 些 信息 ， 如 下 所 示 : 


public class Token { 


private final String word; 
private final double tfxidf; 
private final String file; 





构造 函数 接收 两 个 字符 串 。 第 一 个 参数 中 含有 该 单词 ， 而 第 二 个 参 
数 含 有 文件 和 以 file:tfxidf 格 式 出 现 的 tfxidf 必 性， 所 以 要 按 
照 如 下 代码 进行 处 理 。 


public Token(String word, String token) { 
this .word=word; 


String[] parts=token.split(":"); 

this.file=parts[0]; 

this.tfxidf=Double.parseDouble(parts[1]); 
} 





最 后 ， 增 加 了 获取 而 不 是 设置 ) 这 三 个 属性 值 的 方法 ， 以 及 一 个 
将 对 象 转换 成 字符 串 的 方法 ， 如 下 所 示 : 


@Override 
public String toString() { 


return word+":"+filet+":"+tfxidf; 


} 





03. QueryResult2& 


该 类 存放 了 与 某 个 查询 相关 的 文档 列表 。 从 内 部 来 看 ， 该 类 使 用 一 
个 Map 来 存放 相关 文档 信息 。 其 键 为 文档 的 文件 名 ， 其 值 为 一 

个 Document 对 象 ， 其 中 包含 了 文件 名 和 该 文档 相对 于 该 查询 的 
tfxidf 值 总 和 ， 如 下 所 示 : 


public class QueryResult { 

private Map<String, Document> results; 
使 用 该 类 的 构造 函数 具体 实现 将 用 到 的 Map 接 口 。 在 并 发 版 本 中 使 
用 ConcurrentHashMap， 在 串 行 版 本 中 使 用 HashMap。 








public QueryResult(Map<String, Document> results) { 
this.results=results; 


} 
该 类 包含 了 append 方 法 ， 它 将 一 个 Token 插 入 Map， 如 下 所 示 : 


public void append(Token token) { 
results.computeIfAbsent(token.getFile(), s -> new 


Document (s)).addTfxidf (token. getTfxidf()); 





如 果 没 有 与 文件 相关 的 Document 对 象 ， 那 么 使 
用 computeIfAbsent() 方 法 创建 一 个 新 的 Document 对 象 ， 如 果 





Document 对 象 早已 存在 ， 该 方法 会 获取 相应 的 Document 对 象 ， 并 
且 使 用 addTfxidf() 方 法 将 Token 的 tfxidf 值 加 到 文档 的 总 tfxidf 
值 。 


最 后 ， 还 引入 了 一 个 方法 以 获取 Map， 作 为 一 个 列表 ， 如 下 所 示 : 


public List<Document> getAsList() { 
return new ArrayList<>(results.values()); 


} 


Document 类 将 文件 名 以 字符 串 形式 保存 ， 将 总 tfxidf 值 以 
DoubleAdder 形 式 保存 。 该 类 是 Java 8 的 一 个 新 特性 ， 可 以 从 不 同 
线程 汇总 计算 变量 的 值 ， 而 无 须 担心 同步 问题 。 它 实现 了 
Comparab1le 接 口 来 按照 文档 的 tfxidf 值 对 其 进行 排序 ， 这 

样 tfxidf 值 最 高 的 文档 束 会 排 到 第 一 位 。 其 源 代码 非常 简单 ， 此 
处 不 再 给 出 。 


8.3.3 ”第 二 种 方式 : 约 简 的 文档 查询 


第 一 种 方法 是 为 每 个 单词 和 文件 创建 一 个 新 的 Token 对 象 。 注 意 ， 有 一 
些 常 见 词 ( 例 如 the) 会 关联 大 量 的 文档 ， 但 是 其 中 的 大 多 数 tfxidf 值 
都 很 低 。 我 们 修改 了 自己 的 映射 器 方法 ， 对 于 每 个 单词 仅 考 虑 与 之 相关 
的 100 个 文件 ， 这 样 生 成 的 Token 对 象 数 量 就 比较 小 了 。 


我 们 在 ConcurrentSearch 类 的 reducedSearch() 方 法 中 实现 了 该 版 
本 。 该 方法 与 basicSearch() 方 法 非常 类 似 ， 它 仅仅 改变 了 生 
成 QueryResult 对 象 的 流 操 作 ， 如 下 所 示 : 




















invertedIndex.parallel().filter(line -> set 
.contains(Utils.getWord(line) )) 


. flatMap(ConcurrentSearch: : limitedMapper) 
.forEach(results: : append) ; 





现在 ， 使 用 1imitedMapper() 方 法 作为 flatMap() 方 法 中 的 函数 。 
limitedMapper() 方 法 


该 方法 与 basicMapper() 方 法 类 似 ， 但 是 如 前 所 述 ， 仅 考虑 与 每 个 单词 
相关 的 前 100 个 文档 。 因 为 文档 均 按 照 其 tifxidf 值 进行 排序 ， 所 以 采 








用 该 词 重要 程度 较 高 的 前 100 个 文档 ， 如 下 所 示 : 


public static Stream<Token> limitedMapper(String input) { 
ConcurrentLinkedDeque<Token> list = new ConcurrentLinkedDeque() ; 
String word = Utils.getWord(input) ; 


Arrays.stream(input.split(",")).skip(1).limit(100).parallel().forEach(token 


-> { 
list.add(new Token(word, token) ); 
})3 


return list.stream(); 


} 





它 和 basicMapper() 方 法 唯一 的 区 别 在 于 对 limit(166) 的 调用 ， 这 将 
选取 流 的 前 100 个 元 素 。 


8.3.4 第 三 种 方式 : 生成 一 个 含有 结果 的 HTML 文件 


使 用 Web 搜 索引 擎 〈 例 如 Google) 作为 搜索 工具 进行 搜索 时 ， 它 会 返回 
搜索 的 结果 《最 重要 的 10 个 结果 ) ， 而 且 每 个 结果 都 显示 了 文档 的 标题 
和 出 现 所 搜索 单词 的 文档 片段 。 


搜索 工具 的 第 三 种 方法 基于 第 二 种 方法 ， 只 是 增加 了 第 三 个 流 来 生成 一 
个 含有 搜索 结果 的 HTML 文件 。 对 于 每 个 结果 ， 我 们 将 显示 文档 的 标题 
以 及 含有 查询 中 单词 的 三 行 片 段 。 要 实现 这 一 目标 ， 需 要 访问 在 倒 排 索 
引 中 出 现 的 文件 。 这 些 文件 已 经 存储 在 一 个 名 为 docs 的 文件 夹 中 。 


第 三 种 方法 在 ConcurrentSearch 类 的 htmlSearch() 方 法 中 实现 。 该 
方法 的 第 一 部 分 与 reducedSearch() 方 法 相同 ， 它 构造 了 含有 100 个 结 
果 的 QueryResult 对 象 。 














public static void htmlSearch(String query[], String fileName) throws 
IOException { 
Path path = Paths.get("index", "invertedIndex.txt"); 
HashSet<String> set = new HashSet<>(Arrays.asList(query) ); 


QueryResult results = new QueryResult(new ConcurrentHashMap<>()); 
try (Stream<String> invertedIndex = Files.lines(path)) { 


invertedIndex.parallel().filter(line -> set 
.contains(Utils.getWord(line) )) 


.flatMap(ConcurrentSearch: :limitedMapper) 
.forEach(results: : append) ; 





然后 ， 创 建文 件 并 写 入 输出 结果 和 HTML 头 。 


path = Paths.get("output", fileName + "_results.html") ; 
try (BufferedWriter fileWriter = Files.newBufferedwWriter(path, 
StandardOpenOption.CREATE)) { 


fileWriter.write("<HTML>"); 
fileWriter.write("<HEAD>") ; 
fileWriter.write("<TITLE>"); 
fileWriter.write("Search Results with Streams"); 
fileWriter.write("</TITLE>"); 
fileWriter.write("</HEAD>"); 
fileWriter.write("<BODY>") ; 
fileWriter.newLine(); 





然后 ， 引 入 在 HTML 文件 中 生成 结果 的 流 。 


results.getAsList().stream().sorted().limit(100).map(new 
ContentMapper(query)).forEach(1 -> { 
try { 
fileWriter.write(1); 
fileWriter.newLine(); 
} catch (IOException e) { 
e.printStackTrace(); 
} 
})3 


fileWriter.write("</BODY>"); 
fileWriter.write("</HTML>"); 





我 们 用 到 了 以 下 方法 。 


e getAsList(): 用 于 获取 与 查询 相关 的 文档 列表 。 

。 stream(): 用 于 生成 一 个 顺序 流 。 无 法 并 行 化 该 流 。 如 果 试 图 这 
样 做 ， 最 终 文件 中 的 结果 则 不 会 按照 文档 的 tfxidf 值 排序 。 

。 sorted(): 用 于 按照 tfxidf 属 性 对 结果 排序 。 

e map(): 使 用 ContentMapper 类 将 每 个 结果 对 应 的 Result 对 象 转换 
成 为 一 个 含有 HTML 代 码 的 字符 串 ， 本 章 稍 后 将 详细 介绍 该 类 。 





e forEach(): 将 map() 方 法 返回 的 String 对 象 输出 到 文 
件 。Stream 对 象 的 方法 不 外 oma 因此 要 使 用 一 
个 try. . .catch 代 码 块 抛 出 异 


下 面 详细 介绍 一 下 ContentMapper 类 。 
ContentMapper 类 


ContentMapper 类 是 Function 接 口 的 一 个 实现 ， 它 将 一 个 Result 对 象 
转换 成 一 个 HTML 代 人 码 块 ， 其 中 含有 文档 标题 以 及 含有 查询 中 一 个 或 多 
个 单词 的 三 行文 档 片段 。 


该 类 使 用 一 个 内 部 属性 来 存放 得 询 ， 而 且 实 现 了 一 个 构造 函数 来 初始 化 
该 属性 ， 如 下 所 示 : 





public class ContentMapper implements Function<Document, String> { 
private String query[]; 


public ContentMapper(String query[]) { 
this.query = query; 
} 








该 文档 的 标题 存放 在 文件 的 第 一 行 中 。 使 用 try-with-resources 指 令 
和 File 类 的 lines() 方 法 ， 创 建 含 有 该 文件 各 行内 容 的 String 对 象 
流 ， 并 且 使 用 findFirst() 方 法 以 字符 串 形式 获取 第 一 行 。 


public String apply (Document d) { 
String result = ""; 
try (Stream<String> content = Files.lines(Paths.get("docs",d 
.getDocumentName()))) { 
result = "<h2>" + d.getDocumentName() + ": "+ 


content.findFirst().get() +": " 
d.getTfxidf() + "</h2>"; 
} catch (IOException e) { 
e.printStackTrace(); 
throw new UncheckedIOException(e); 


} 








然后 ， 采 用 一 种 类 似 结 构 ， 不 过 在 本 例 中 ， 我 们 使 用 filter() 方 法 获 
取 那 些 仅 包 含 查询 中 一 个 或 多 个 单词 的 行 ， 使 用 limit() 方 法 选取 其 中 
的 三 行 。 然 后 ， 使 用 map() 方 法 为 每 个 段落 添加 HTML 标 记 (<p>), 





并 使 用 reduce() 方 法 完成 含有 选 定 行 的 HTML 代 码 。 


try (Stream<String> content = Files.lines(Paths.get ("docs", 
d.getDocumentName()))) { 
result += content.filter(1l -> Arrays.stream(query) 
.anyMatch (1.toLowerCase()::contains) ) 
.limit(3).map(1 -> "<p>"+1+"</p>") 
.reduce("", String: :concat); 


return result; 
} catch (IOException e) { 
e.printStackTrace(); 
throw new UncheckedIOException(e); 
} 
} 


8.3.5 ”第 四 种 方式 : 预先 载 入 倒 排 索引 


并 行 执 行 时 ， 前 三 种 解决 方案 会 存在 问题 。 如 前 所 述 ， 并 行 流 是 由 Java 
并 发 API 中 的 公共 Fork/Join 池 执行 的 。 在 第 7 章 中 ， 我 们 了 解 了 不 应 该 在 
任务 中 使 用 LO 操作 来 读 取 或 写 入 数据 。 这 是 因为 当 一 个 线程 阻 坚 了 从 
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数据 结构 中 创建 流 。 显 然 ， 与 其 他 方式 相 比 ， 这 种 方式 的 执行 时 间 要 少 
一 些 ， 但 是 仍 要 比较 串 行 版 本 和 并 发 版 本 ， 看 看 并 发 版 本 是 人 否 如 预期 那 
样 能 够 带 来 更 好 的 性 能 。 这 种 方式 的 缺陷 在 于 需要 将 数据 结构 存放 在 内 
存 中 ， 而 这 需要 消耗 大 量 的 内 存 。 


第 四 种 方式 在 ConcurrentSearch 类 的 preloadSearch() 方 法 中 实现 。 
该 方法 接收 以 一 个 字符 串 数组 形式 存放 的 查询 和 一 个 带 有 倒 排 索引 数据 
的 ConcurrentInvertedIndex 类 〔( 稍 后 将 了 解 该 类 的 详细 内 容 ) 的 对 
象 作 为 参数 。 这 一 版 本 的 源 代码 如 下 : 























public static void preloadSearch(String[] query, 
ConcurrentInvertedIndex invertedIndex) { 


HashSet<String> set 
QueryResult results 


new HashSet<>(Arrays.asList(query) ); 
new QueryResult(new ConcurrentHashMap<>()); 


invertedIndex. getIndex().parallelStream() 
.filter(token -> set.contains(token.getWord())) 
.forEach(results: :append) ; 


results.getAsList().stream().sorted().limit (100) 
.forEach(document -> System.out.println(document) ) ; 


System.out.println("Preload Search Ok."); 
} 





ConcurrentInvertedIndex 类 采用 List<Token> 来 存放 从 文件 中 读 取 
的 Token 对 象 。 该 类 有 两 个 方法 来 操作 该 元 素 列表 ， 即 get() 和 set() 
方法 。 


与 在 其 他 方式 中 一 样 ， 我 们 使 用 两 个 流 : 第 一 个 用 于 获取 Result 对 象 
的 ConcurrentLinkedDeque， 其 中 含有 整个 结果 列表 ; 第 二 个 用 于 在 
控制 台 输 出 结果 。 与 其 他 版 本 相 比 ， 第 二 个 流 并 没有 改变 ， 但 是 第 一 个 
流 发 生 了 变化 。 在 该 流 中 使 用 了 下 述 方法 。 


e getIndex(): 首先 ， 获 取 Token 对 象 列 表 。 

e parallelStream(): 其 次 ， 创 建 一 个 并 行 流 来 处 理 该 列表 的 全 部 
元 素 。 

e filter(): 选择 与 查询 中 单词 相关 的 Token。 

e forEach(): 对 Token 列 表 进 行 处 理 ， 使 用 append() 方 法 将 它们 添 
加 到 QueryResult 对 象 中 。 





ConcurrentFileLoader 类 


ConcurrentFileLoader 类 将 含有 倒 排 索引 信息 的 invertedIndex.txt 文 件 
内 容 加 载 到 内 存 。 它 提供 了 一 个 名 为 1oad() 的 静态 方法 ， 该 方法 接收 
存放 倒 排 索引 的 文件 路 径 作 为 参数 ， 返 回 一 

个 ConcurrentInvertedIndex 对 象 。 代 人 码 如 下 : 


public class ConcurrentFileLoader { 


public ConcurrentInvertedIndex load(Path path) throws IOException { 
ConcurrentInvertedIndex invertedIndex = new ConcurrentInvertedIndex(); 
ConcurrentLinkedDeque<Token> results=new ConcurrentLinkedDeque<>(); 





使 用 try-with-resources 结 构 打 开 文 件 并 且 创 建 一 个 流 来 处 理 所 有 


try (Stream<String> filestream = Files.lines(path)) { 
fileStream.parallel().flatMap(ConcurrentSearch: : limitedMapper) 
.forEach(results::add); 
} 


invertedIndex.setIndex(new ArrayList<>(results)); 
return invertedIndex; 





在 该 流 中 使 用 了 下 述 方法 。 


。 parallel(): 将 该 流转 换 成 一 个 并 行 流 。 

e flatMap(): 使 用 ConcurrentSearch 类 的 1imitedMapper() 方 法 
将 行 转换 成 一 个 Token 对 象 流 。 

e forEach(): 处 理 Token 对 象 列表 ， 使 用 add() 方 法 将 它们 添加 
到 ConcurrentLinkedDeque 对 象 中 。 


最 后 ， 将 ConcurrentLinkedDeque 对 象 转换 成 ArrayList， 并 且 
在 InvertedIndex 对 象 中 使 用 setIndex() 方 法 对 其 进行 设置 。 


8.3.6 ”第 五 种 方式 : 使 用 我 们 的 执行 器 


为 了 更 加 深入 地 理解 本 例 ， 我 们 还 将 测试 另 一 个 并 发 版 本 。 正 如 本 章 开 
头 提 到 的 ， 并 行 流 使 用 Java 8 引入 的 公共 Fork/Join 池 。 然 而 ， 我 们 可 以 
借助 一 个 技巧 来 使 用 上 自己 的 了 地。 如果 将 目 己 的 方法 作为 Fork/Join 池 的 一 
个 任务 ， 那 么 该 流 的 所 有 操作 都 会 在 同一 Fork/Join 池 中 执行 。 为 测试 该 
功能 ， 我 们 在 ConcurrentSearch 类 中 增加 了 executorSearch() 方 
法 。 该 方法 接收 以 字符 串 对 象 数组 表示 的 查询 作为 参数 ， 接 

收 InvertedIndex 对 象 和 一 个 ForkJoinPool 对 象 。 该 方法 的 源 代码 如 
下 : 





public static void executorSearch(String[] query, 
ConcurrentInvertedIndex invertedIndex, ForkJoinPool pool) { 
HashSet<String> set = new HashSet<>(Arrays.asList(query)); 
QueryResult results = new QueryResult(new ConcurrentHashMap<>()); 


pool.submit(() -> { 


invertedIndex.getIndex().parallelStream() 
.filter(token -> set.contains(token.getWord())) 
.forEach(results: : append) ; 


results.getAsList().stream().sorted().limit(100) 
.forEach(document -> System.out.print1ln(document) ) ; 


}) .join(); 


System.out.println("Executor Search Ok."); 





执行 该 方法 的 内 容 ， 其 中 含有 两 个 流 。 使 用 submit() 方 法 将 该 方法 作 
为 Fork/Join 池 中 的 一 个 任务 ， 并 且 使 用 join() 方 法 等 待 其 执行 完毕 。 


8.3.7 ”从 倒 排 索引 获取 数据 : ConcurrentData 类 


我 们 还 实现 了 一 些 方 法 来 获取 有 关 倒 排 索引 的 信息 ， 这 用 到 了 
ConcurrentData 类 中 的 reduce() 方 法 。 


8.3.8 ”获取 文件 中 的 单词 数 


第 一 个 方法 用 于 计算 文件 中 的 单词 数 。 正 如 在 本 章 前 面 提 到 的 ， 倒 排 索 
引 存 储 了 出 现 单 词 的 文件 。 如 果 想 知道 文件 中 出 现 的 单词 ， 必 须 处 理 所 
有 的 倒 排 索引 。 我 们 实现 了 该 方法 的 两 个 版 本 。 第 一 个 是 

在 getWordsInFile1() 方 法 中 实现 的 。 它 接收 文件 名 和 
InvertedIndex 对 象 作为 参数 ， 如 下 所 示 : 








public static void getWordsInFile1(String fileName, ConcurrentInvertedIndex 
index) { 
long value = index.getIndex().parallelStream() 


.filter(token -> fileName 
.equals(token. getFile())).count(); 
System.out.println("Words in File "+fileName+": "+value); 





本 例 使 用 getIndex() 方 法 获取 Token 对 象 列表 ， 并 且 使 

用 parallelstream() 方 法 创建 一 个 并 行 流 。 然 后 ， 使 用 filter() 方 法 
a ere 最 后 ， 使 用 count( ) 方 法 计算 与 该 文件 相 
ÀJ 人 Y WJZ o 


我 们 还 实现 了 该 方法 的 男 一 个 版 本 ， 使 用 reduce( ) 方 法 蔡 代 count ( ) 
方法 ， 即 getWordsInFile2() 方 法 ， 如 下 所 示 : 


public static void getWordsInFile2(String fileName，ConcurrentInvertedIndex 
index) { 


long value = index.getIndex().parallelStream() 


.filter(token -> fileName.equals(token.getFile())) 
.mapToLong(token -> 1).reduce(@, Long::sum); 
System.out.println("Words in File "+fileName+": "+value) ; 


} 


操作 的 起 始 顺序 与 前 一 个 方法 相同 。 获 取 含 有 文件 中 单词 的 Token 对 象 
流 时 ， 我 们 使 用 mapToInt () 方 法 将 该 流转 换 成 一 个 数值 为 1 的 流 ， 然 后 
使 用 reduce( ) 方 法 将 所 有 的 数值 1 相 加 。 


8.3.9 ”获取 文件 的 平均 tfxidf 值 
我 们 实现 了 getAverageTfxidf() 方 法 ， 该 方法 计算 了 文档 集合 中 某 个 


文件 中 单词 的 平均 tfxidf 值 。 在 此 使 用 reduce( ) 方 法 来 展示 它 是 如 何 
运行 的 。 也 可 以 使 用 其 他 方法 获得 更 好 的 性 能 。 











public static void getAverageTfxidf(String fileName, 
ConcurrentInvertedIndex index) { 


long wordCounter = index.getIndex().parallelStream() 
.filter(token -> fileName.equals(token.getFile())) 
.mapToLong(token -> 1).reduce(@, Long::sum); 


double tfxidf = index.getIndex().parallelStream() 
.filter(token -> fileName.equals(token.getFile())) 
.reduce(@d,(n,t)-> n+t.getTfxidf(),(n1,n2) -> n1+n2); 


System.out.println( "Words in File "+fileName+": "+ 
(tfxidf/wordCounter ) ) ; 





我 们 使 用 两 个 流 。 第 一 个 计算 文件 中 的 单词 数 ， 而 且 它 和 
getWordsInFile2() 方 法 的 源 代码 相同 。 第 二 个 计算 文件 中 所 有 单词 
的 tfxidf 总 值 。 我 们 使 用 同样 的 方法 获取 含有 文件 中 单词 的 Token 对 象 
流 ， 然 后 使 用 reduce 方 法 将 所 有 单词 的 tfxidf 值 相 加 。 我 们 








癌 reduce() 方 法 传递 下 述 三 个 参数 。 


。 0: 该 参数 作为 标识 值 传 入 。 

e (n,t) -> n+t.getTfxidf(): 该 参数 作为 accumulator 函 数 传 
入 。 它 接收 一 个 double 数 值 和 一 个 Token 对 象 ， 并 且 计 算 该 数值 和 
Token 的 tfxidf 属 性 值 的 和 。 

e (n1,n2) -> n1+n2: 该 参数 作为 combiner 函 数 传 入 。 它 接收 两 个 
数值 并 且 计 算 它 们 的 和 。 


8.3.10 ”获取 索引 中 的 最 大 tfxidf 值 和 最 小 tfxidf 值 


我 们 还 在 maxTfxidf() 方 法 和 minTfxidf() 方 法 中 使 用 reduce() 方 法 
来 计算 最 大 tfxidf 值 和 最 小 tfxidf 值 。 


public static void maxTfxidf(ConcurrentInvertedIndex index) { 
Token token = index.getIndex().parallelStream() 
.reduce(new Token("", "xxx:@"), (t1, t2) -> { 
if (t1.getTfxidf()>t2.getTfxidf()) { 
return t1; 
} else { 


return t2; 
} 
}); 
System.out.println(token.toString()); 
} 





该 方法 接收 ConcurrentInvertedIndex 作 为 参数 。 我 们 使 

用 getIndex() 方 法 来 获取 Token 对 象 列表 。 然 后 ， 使 

用 parallelStream() 方 法 在 该 列表 上 创建 一 个 并 行 流 ， 并 且 使 

用 reduce() 方 法 获取 具有 最 高 tfxidf 值 的 Token 对 象 。 在 本 例 中 ， 使 
用 带 有 两 个 参数 的 reduce() 方 法 ， 其 中 一 个 参数 为 标识 值 ， 另 一 个 为 
一 个 accumulator 函 数 。 该 标识 值 是 一 个 Token 对 象 。 我 们 并 不 考虑 该 
单词 及 其 文件 名 称 ， 但 是 将 其 tfxidf 属 性 的 值 初 始 化 为 0。 然 

后 ，accumulator 疯 数 接收 两 个 Token 对 象 作为 参数 。 比 较 两 个 对 象 的 
tfxidf 值 属性 ， 并 且 返 回 值 较 大 的 那个 对 象 。 


minTfxidf() 方 法 非常 类 似 ， 如 下 所 示 : 


public static void minTfxidf(ConcurrentInvertedIndex index) { 
Token token = index.getIndex().parallelStream() 








.reduce(new Token("", "xxx:1000000"),(t1, t2) -> { 
if (t1.getTfxidf()<t2.getTfxidf()) { 
return t1; 
} else { 
return t2; 
} 


}); 
System.out.println(token.toString()); 


} 


o ， 其 主要 区 别 在 于 对 标识 值 的 初始 化 要 采用 非常 高 的 tfxidf 








8.3.11 ConcurrentMainZ 


为 了 测试 在 以 上 各 节 中 讲述 的 方法 ， 我 们 实现 了 ConcurrentMain 类 ， 
该 类 实现 了 main() 方 法 以 启动 测试 。 在 这 些 测试 中 ， 使 用 了 下 面 三 个 
查询 。 


。 Ail: 含有 james 和 bond 两 个 单词 。 
。 查询 2: 含有 gone、with、the 和 wind 等 单词 。 
。 查询 3: 含有 单词 rocky。 
我 们 用 三 个 版 本 的 搜索 过 程 测试 上 述 三 个 得 询 ， 上 度量 每 次 测试 的 执行 时 
间 。 上 所 有 的 测试 都 含有 类 似 下 面 的 代码 : 
public class ConcurrentMain { 
public static void main(String[] args) { 
String queryi[ ]={"james","bond"}; 
String query2[]={"gone", "with", "the", "wind"}; 
String query3[]={"rocky"}; 


Date start, end; 


bufferResults.append("Version 1, query 1, concurrent\n"); 

start = new Date(); 

ConcurrentSearch.basicSearch(query1) ; 

end = new Date(); 

bufferResults.append("Execution Time: " + (end.getTime() - 
start.getTime()) + "\n"); 





为 从 某 个 文件 将 倒 排 索引 加 载 到 一 个 InvertedIndex 对 象 ， 可 以 使 用 下 
述 代码 。 


ConcurrentInvertedIndex invertedIndex = new 
ConcurrentInvertedIndex() ; 


ConcurrentFileLoader loader = new ConcurrentFileLoader(); 
invertedIndex = loader.load(Paths.get("index", 
"invertedIndex.txt")); 





为 了 创建 用 于 executorSearch() 方 法 的 执行 器 ， 可 以 使 用 下 面 的 代 
15. 


ForkJoinPool pool = new ForkJoinPool(); 


8.3.12 ”品行 版 


我 们 通过 
SerialSearch、SerialData、SerialInvertendIndex、SerialFilt 
和 SerialMain 类 实现 了 该 例 的 串 行 版 。 为 了 实现 该 版 本 ， 我 们 做 了 如 
下 改动 。 


。 使 用 顺序 流 蔡 代 并 行 流 。 不 使 用 parallel() 方 法 来 将 法 转换 成 并 
行 流 ， 或 者 将 创建 并 行 流 的 parallelstream() 方 法 替换 
为 stream() 方 法 ， 进 而 创建 一 个 顺序 流 。 

。 在 SerialFileLoader 类 中 ， 使 用 ArrayList 代 蔡 
ConcurrentLinkedDeque. 


8.3.13 XSL PPA D K 
比较 一 下 已 实现 所 有 方法 的 串 行 版 和 并 行 版 解决 方案 。 


使 用 JMH 框 染 来 执行 它们 ， 该 框架 允许 你 在 Java 中 实现 微型 基准 测试 。 
使 用 一 个 面 同 基准 测试 的 框架 是 比较 好 的 解决 方案 ， 它 直接 

用 currentTimeMillis() 方 法 或 者 nanoTime() 方 法 度量 时 间 。 在 两 种 
不 同 的 架构 上 分 别 执行 这 些 示例 10 次 。 


。 一 台 计 算 机 配置 了 Intel Core i5-5300 处 理 器 、Windows 7 操作 系统 和 
16GB 的 RAM。 该 处 理 器 有 两 个 核 ， 且 每 个 核 可 以 执行 两 个 线程 ， 





这 样 就 有 四 个 并 行 线程 。 
。 另 一 台 计 算 机 配置 了 AMD A8-640 处 理 器 、Windows 10 操 作 系 统 和 
8GB 的 RAM。 该 处 理 器 有 四 个 核 。 


对 于 含有 单词 james 和 bond 的 第 一 个 查询 ， 其 执行 时 间 如 下 《单位 : 军 
秒 ) 。 


FF FF 
a 





对 于 带 有 单词 gone、with、the 和 wind 的 第 二 个 查询 ， 其 执行 时 间 如 
下 (单位 ， 毫秒) 。 


O ee 


对 于 含有 单词 rocky 的 第 三 个 和 查询， 执行 时 间 如 下 “单位 : SPD) 。 
O O ee 


FEN FEN 
EAEE 














约 简 搜索 1165.619 767.027 3167.887 1586.318 
HTML 搜 索 1167.504 677.001 3196.033 2224.549 
预 加 载 搜索 74.287 45.014 140.17 101.741 





执行 器 搜索 81.929 47.868 142.389 107.507 


最 后 ， 下 表 为 返回 有 关 倒 排 索引 信息 的 各 方法 的 平均 执行 时 间 〈 单 位 : 


ZEB) 。 


O e 





127.382 62.966 259.749 145.967 
31.64 28.207 89.013 76.604 
40.256 30.228 91.784 82.566 





可 以 得 出 如 下 结论 。 


。 8 以 获取 相关 文档 列表 时 ， 算 法 的 并 发 版 本 展现 了 更 好 

。 采用 预先 载 入 倒 排 索引 的 版 本 时 ， 该 算法 的 并 发 版 本 也 在 各 种 情况 
下 表现 出 了 较 好 的 性 能 。 

。 对 于 那些 能 够 返回 倒 排 索引 相关 信息 的 方法 ， 算 法 的 并 发 版 本 总 是 
具有 更 好 的 性 能 。 


最 后 使 用 加 速 比 比较 三 个 查询 的 并 行 流 和 顺序 流 处 理 情况 ， 例 如 ， 对 于 
预先 载 入 倒 排 索引 的 James Bond 查 询 ， 有 如 下 公式 。 











G Tserial 152.663 
PAMD = 7, E : = 1.40 
Tconcurrent 104.304 

T serial 84.174 


Sintel = = —— = 1.92 
T concurrent 43. if 16 


最 后 ， 在 第 三 种 方法 中 ， 我 们 生成 了 含有 查询 结果 的 HTML 网 页 。 对 于 
带 有 单词 james bond 的 第 一 个 查询 ， 搜 索 到 的 前 几 个 结果 如 下 。 

















Search Results with Soren: x 


Cc filey//C/dew/concurrency/examples/Searchinvertedindex/output/query1_serial_results him % 
930379.txt: Casino Royale (2006 film): 411.54 


) James Bond Neal Purvis, novel of hcence to kill. Afer preventing a terronst attack at Mase International Auport. Bond falls in lowe with Vesper Lynd. the treasury employee assugued to provide the 
money he needs to bankrupt a terrorist financier. Le Chaffre. by beating ham in a high-stakes pokes game. The story arc continues in the follommg Bond film. Quannam of Solace (2008) 





If reboots the serves, establishang a new temeline and marranve framework not measa to precede of succeed amy previous Bond fim nisch allows the film to show a less expemenced and more vulnerable Boed 
Addonally, the character Miss Moneypenny i. for the first tume an the venes, completely absent. Casnng the film mvolved a widespread search for a new actor to portray James Bowed, and agnificant 

G coetroversy surrounded Crag when he was selected to swcceed Prerce Brosnan in October 2 Locanon Gimme took place m the Czech Republic. the Bahamas. italy and the Unned Kingdom with interior 

sets bush as Pinewood Studios Although part of the storyline 1s set m Montenegro. po filming took place there, Canso Royale was produced by Eos Productions for Metro-Goldayn- Mayer and Columbia 


Prctores. making st the fart Eon-produced Bond film to be leternanomal co-prodacteonico-produced by the latter wudo 





Casmo Royale peemsred at the Odeon Lescester Square on 14 November 2006 It recesved largely positive onitical response. with reviewers highlightung Crasgs performance and the remvertion of the 
© character of Bond. It earned over $ worldwide, becoming the highest-grossing James Bond film until the releave of Skyfall an 2012 


6268880.txt: On Her Majesty's Secret Service (film): 342.36 


=E Q> 


aleeA man us a dinner jacket on skis, holdung a gun Next to bim is a red-headed woman. also on skis and with a gun. They are being pursued by men on sias and a bobulesgh. all with gums In the top left of 
the picture are the words FAR UP! FAR OUT! FAR MORE! James Bond 007 is back! 


James Bond 1963 novel You Only James Bond Durmg the making of the film, Lazenby decided that he would play the role of Bond only once 


x 


This ss the only Bond film to be dwected by Peter R Huat, who had served as a files editor and second unit darector ca previow films ww the series. Hunt along wuh prodacers Albert R Broceob and Harry 

© Salzman deceded to prodace a more realswne Éko that would follow the novel closely. It was shot m Swatzerland, England and Portugal fom October 1965 to May 1969. Although ets cancena release wan not 
a lucrative as its predecessor You Only Live Tusce. On Her Majestys Secret Service wan still one of the top performung files of the year Crincal reviews upon release were mixed. but the Glas reputation 
has wapeoved over tune. although reviews of Lazenbys performance coatume to vary 

< 

6446053.txt: Dr. No (film): 342.23999999999995 





alte In the foreground. Bond wesss a sust and n hoblking a gen: four female characters Gom the Sl are next to hum 

R James Bond Casano Royale beag the debut for the chasacter. however, the film makes a few references to threads fom earlier books 

P Dr No was produced o a low budget and was a financsal swecess While crimcal reaction was meted upon release, over time the film has gamed a repemation as one of the senes best nstalmenn The film was 
$ the first of a yoccewfol series of 23 Bond films Dr No aho launched a gense of “secret agem” films that flownuhed in the 1960s. The film also spaumed a spin-off comic book asd soundimack album as part of 


© ii promotion and marketing 
! WS STL OME OF SDE DOD DETROLMLMLS ILMAS OF ME VEAN. UIIDCAL IEYIEWS UDOG renee Were gxed. out 


对 于 含有 单词 gone with the wind 的 第 二 个 查询 ， 其 搜索 到 的 前 几 个 
结果 如 下 。 


ch Results with Stren: x 


C D filey//Csdev 


2804704.txt: Gone with the Wind (film): 292.03000000000003 





concurrency/examples/Searchinvertedindesx/output/(query2_serial_results htm! % 





Gone wrth the Wand (film) 
same = Gone with the Wind 


image = Postes - Gone With the Wind 01 jpg 
§224.txt: Citizen Kane: 236.36 


alt = Poster showing two women m the bonom left of the picture looking up towards a man in a whate wait i the top mgha of the picture. “Everybodys talkang about it Its temnfic!” appears m the top nght of 
the picture. “Orson Welles” appears us block lemers between the women and the man s the white sus “Citizen Kane” appears en red and yellow block lemers npped 60A® to the ngia The remaming credatis 
ace listed an fine pews m the bottoes right 


caption = Theatrical release potter 


Harold McCormick. and aspects of Welless own hfe. Upon its release. Hearst prohabuted mention of the film m any of has nenspapers Kanes career m the pubinhing world is bom of idealistoc social service 
but gradually evolves unto a ruthless puryust of power. Narrated principally through Flashback (narrative) flashbacks. the story ss told through the research of a newsreel reporter seeking to solve the mystery of 
the newspaper magnates dyusg word “Rosebud 


18456519.txt: The Storm Warriors: 154.12 


The Storm Wamoes 


{ (Infobox film name = The Storm Wannees mape = Stors-nders-)-mone3 pe capmon = Teaser poster director = Danny Pang Oxsde Pang peoducers = Pang Brothers story = Ma Wing-shang stamag = Arroa 
Kwek Ekm Cheng Nicholas Tse Charlene Cho: Sumon Yam Kenny Ho uudio = Universe Entertasenent Sal-Metropole Orgarasation/Sul- Metropole Chengtian Extertamusent distributors © Universe Falma 


Dismberion Co Led releaued = country = Hong Kong laguage = Cantonese budget = grows = USSS 668.356 





The Storm Wasrices ( ) 1 a 2009 Hong Kong film prodsced and directed by the Pang brothers. It ni the second Irre-sc ton film adaptation of artat Ma Wang-shings manhua senes Fung Wan following the 
1998 film The Storm Riders The Storm Wanors is based on Fung Wan s Japanese Invasion story arc The Death Battle. Ekin Cheng and Aaron Kwok respectively reprise thew roles m Wind and Cloud who 
thes time find themselves up against Lord Godless (Sumon Yasa). a ruthbess Japanese warlord bent on mvading Chana The film us a co-production between Universe Entertaunment and Sil- Metropole 
Organnenon 


1186616.txt: The Shining (film): 138.94 





最 后 ， 但 询 rocky 搜 索 到 的 前 几 个 结果 如 下 所 示 。 


series that be; the Acader ward-w inna tky thirty years easier w 1976. the film portrays Balboa m retuement, a v 


man restava anit cal) Adnans”. named after 





nuse = Rocky 





Iran Winkler writer = Sylvester Stallone 





g caption = Theatrical releme poster director = Sylvester Stallone producer = Robert Chartof 








publacher = Box Office Mopo cky bam aschiveurl 


Yd=vocky him ar 





franchsses chert” 






sports fils tithe = Rocky M. = 2007-09-17 work = Box Office Mo 


bmp web archive or 





emoyjo com franchises 


whad ddd ed! VU IEA Bon ee at 


8.4 ”小 结 


本 章 介 绍 了 流 ， 这 是 Java 8 中 引入 的 一 种 新 特性 ， 它 受到 了 函数 式 编程 
的 启示， 而 且 为 使 用 新 的 lambda 表 达 式 铺 平 了 道路 。 流 是 一 个 数据 序列 
(并 不 是 一 个 数据 结构 )， 人 允许 以 顺 友 或 者 并 及 方式 应 用 一 个 操作 序 
人 


你 也 了 解 了 流 的 主要 特征 ， 在 目 己 的 串 行 应 用 程序 或 并 发 应 用 程序 中 使 
用 这 些 流 时 ， 应 该 对 它们 加 以 考虑 。 


最 后 ， 我 们 在 两 个 样 例 中 使 用 了 流 。 第 一 个 样 例 几 乎 使 用 了 Stream 接 
口 提 供 的 全 部 方法 ， 以 计算 一 个 大 规模 数据 集 的 统计 数据 。 其 中 ， 使 用 
了 UCI 机 器 学 习 资 源 库 的 Online Retail 数 据 集 。 第 二 个 样 例 实 现 了 多 种 不 
同 的 方式 来 在 倒 排 索引 中 构建 一 个 搜索 应 用 程序 ， 以 便 获 得 与 查询 最 相 
关 的 文档 。 这 是 信息 检索 领域 最 常见 的 任务 之 一 。 为 此 ， 我 们 使 用 了 

reduce() 方 法 作为 流 的 末端 操作 。 


下 一 章 将 继续 讲解 流 ， 但 是 会 更 加 关注 collect() 末 端 操 作 。 














第 9 间 使 用 并 行 流 处 理 大 规模 数 
据 集 : MapCollect 模 型 


第 8 章 介 绍 了 流 的 概 仿 。 流 就 是 一 个 元 素 序 列 ， 可 以 使 用 并 行 或 者 顺序 
的 方式 进行 处 理 。 本 章 将 继续 学 习 如 何 处理 流 ， 主 要 涉及 如 下 主题 。 


collect() 方 法 。 

第 一 个 例子 : 无 索引 条 件 下 的 数据 搜索 。 
第 二 个 例子 : 推荐 系统 。 

第 三 个 例子 : 社交 网 络 中 的 共同 联系 人 。 








9.1 使 用 流 收 集 数 据 

第 8 章 简要 介绍 了 流 。 下 面 回顾 一 下 流 最 重要 的 几 个 特征 。 

。 流 并 不 存储 元 素 。 它 们 只 处 理 存放 在 数据 源 〈 数 据 结构 、 文 件 等 ) 
中 的 元 素 。 


。 流 不 可 重用 。 
。 流 可 对 数据 进行 延迟 处 理 。 





流 操作 不 能 修改 流 的 源 。 
流 允 许 你 进行 链 式 操作 ， 因 此 一 项 操作 的 输出 是 下 一 项 操作 的 输 
Ds 


流 由 下 述 三 个 要 素 构 成 。 


生成 流 元 素 的 源 。 

0 个 或 多 个 中 间 操 作 ， 这 些 操 作 可 以 产生 输出 ， 形 成 男 一 个 流 。 

一 个 可 以 产生 绪 果 的 末端 操作 ， 该 结果 既 可 以 是 一 个 简单 对 象 、 数 
组 、Colletion、Map， 也 可 以 是 其 他 的 东西 。 


Stream API 提 供 了 不 同 的 末端 操作 ， 不 过 其 中 两 个 操作 更 加 重要 ， 它 们 
具有 更 好 的 灵活 性 和 更 强 的 能 力 。 在 第 8 章 中 ， 你 学 会 了 如 何 使 

用 reduce() 方 法 ， 而 在 本 章 ， 将 学 会 如 何 使 用 collect() 方 法 。 下 面 
首先 简单 介绍 一 下 该 方法 。 











collect() 方 法 


collect() 方 法 可 对 流 的 元 素 进 行 转换 和 分 组 ， 生 成 一 个 售 有 流 最 终结 
果 的 新 数据 结构 。 你 可 以 使 用 多 达 三 种 不 同 的 数据 类 型 : 一 种 输入 数据 
类 型 ， 即 来 自流 的 输入 元 素 的 数据 类 型 ， 一 种 中 间 数 据 类 型 ， 用 于 
在 collect() 方 法 运行 过 程 中 存放 元 素 ; 以 及 一 种 输出 数据 类 型 ， 它 
由 collect() 方 法 返回 。 


collect() 方 法 有 两 个 版 本 。 第 一 个 版 本 接收 下 述 三 种 函数 型 参数 。 


e Supplier 函 数 : 这 是 一 个 创建 中 间 数 据 类 型 对 象 的 函数 。 如 果 使 用 
顺序 流 ， 该 方法 会 被 调用 一 次 。 如 果 使 用 并 行 流 ， 该 方法 会 被 调用 





多 次 ， 而 且 每 次 都 必须 产生 一 个 新 对 象 。 

e Accumulator K 20: 调用 该 函数 可 以 处 理 输入 元 素 ， 并 且 在 中 间 数 
据 结 构 中 存放 该 元 素 。 

e Combiner žr: 调用 该 函数 可 以 将 两 个 中 间 数 据 结构 合 二 为 一 。 
该 函数 只 有 在 处 理 并 行 流 时 才 会 被 调用 。 


这 个 版 本 的 collect() 方 法 用 到 了 两 种 不 同 的 数据 类 型 : RA LA UH 
AVA BURA, DA BFA FF CP E oc ae FF HT ae A AR AY PB BAS 
AS 





collect() 方 法 的 第 二 个 版 本 接收 一 个 实现 Collector 接 口 的 对 象 。 你 
可 以 自己 实现 该 接口 ， 但 是 使 用 collector .of( ) 静 态 方法 更 容易 。 该 
方法 的 参数 如 下 所 示 。 


° Supplier: 该 函数 创建 了 一 个 中 间 数 据 类 型 的 对 象 ， 其 用 法 参照 前 
面 的 介绍 。 

Accumulator: 调用 该 函数 可 以 处 理 一 个 输入 元 素 ， 如 果 必 要 还 可 
对 该 元 系 进 行 转换 ， 并 且 将 其 存放 在 中 间 数 据 结构 中 。 

Combiner: 调用 该 函数 可 以 将 两 个 中 间 数 据 结 构 合 并 成 一 个 ， 用 
法 参照 前 面 的 介绍 。 

Finisher: 如 果 需 要 进行 最 终 的 转换 或 者 计算 ， 调 用 该 函数 可 以 将 
中 间 数 据 结构 转换 成 最 终 的 数据 结构 。 

Characteristics: 可 以 使 用 这 个 最 后 的 变量 参数 表明 所 创建 的 收集 
器 的 一 些 特征 。 


实际 上 ， 这 两 个 版 本 之 间 存 在 稍 许 差别 。 带 有 三 个 参数 的 collect() 方 
法 接收 的 Combiner 是 BiConsumer， 它 必须 将 第 二 个 中 间 结 果 合 并 到 第 
一 个 中 间 结 果 中 。 而 这 一 版 本 的 collect() 方 法 采用 的 Combiner 

是 BinaryOperator， 而 且 应 该 返回 该 Combiner。 因 此 这 一 版 本 的 
Collect 方 法 既 可 以 选择 将 第 二 个 中 间 结 果 合 并 到 第 一 个 ， 也 可 以 将 第 一 
个 中 间 结 果 合 并 到 第 二 个 ， 或 者 也 可 以 创建 一 个 新 的 中 间 结 果 。of() 方 
法 还 有 另 一 个 版 本 ， 除 了 Finisher 之 外 ， 参 数 都 相同 。 在 本 例 中 ， 并 不 
执行 最 终 转 换 。 


Java 在 Collector 工 厂 类 中 提供 了 一 些 预定 义 的 收集 器 。 可 以 通过 这 些 
收集 器 的 静态 方法 获得 这 些 收集 器 。 如 下 是 其 中 的 一 些 方法 。 

















e averagingDouble()、averagingInt() 和 averagingLong(): 


这 些 方法 返回 一 个 收集 器 ， 能 够 计算 double、int 或 者 long 型 函数 
的 算术 平均 值 。 

groupingBy(): 该 方法 返回 一 个 收集 器 ， 使 你 能 够 按照 其 对 象 的 
某 一 属性 对 流 的 元 素 进 行 分 组 ， 生 成 一 个 Map， 其 键 为 所 选 定 属性 
的 值 ， 而 其 值 为 具有 某 一 确定 值 的 对 象 列表 。 
groupingByConcurrent(): 这 和 前 一 个 方法 相似 ， 只 是 有 两 点 不 
同 。 第 一 个 不 同 点 在 于 该 方法 在 并 行 模式 下 比 groupingBy() 方 法 
更 快 ， 但 是 在 顺序 模式 下 却 更 慢 。 第 二 个 (也 是 最 重要 的 ) 不 同 点 
在 于 groupingByConcurrent() 函 数 是 一 个 无 序 的 收集 器 。 不 能 保 
证 列表 中 项 的 顺序 和 其 在 流 中 的 顺序 相同 。 另 一 方 

面 ，groupingBy() 收 集 器 则 能 够 保证 排序 。 

joining(): 该 方法 返回 一 个 Collector 工 三 类， 将 输入 元 素 串 联 
AN FFT 

partitioningBy(): 该 方法 返回 一 个 Collector 工 厂 类 ， 基 于 某 
个 谓词 的 结果 对 输入 元 素 进 行 划 分 。 
summarizingDouble()、summarizingInt() 和 
summarizingLong(): 这 些 方法 返回 一 个 Collector 工 厂 类 ， 计 
算 输入 元 素 的 汇总 统计 值 。 

toMap(): 该 方法 返回 一 个 Collector 工 厂 类 ， 使 你 可 以 基于 两 个 
映射 函数 将 输入 元 素 转 换 为 一 个 Map。 

toConcurrentMap(): 该 方法 与 前 一 个 类 似 ， 只 是 以 并 发 方式 工 
作 。 在 不 考虑 定制 归并 器 的 情况 下 ，toConcurrentMap() 只 是 在 
并 行 流 的 情况 下 较 快 。 与 groupingByConcurrent() 方 法 一 样 ， 这 
也 是 一 个 无 序 收集 器 ， 而 toMap() 则 采用 相遇 时 的 排序 执行 转换 。 
toList(): 该 方法 返回 一 个 Collector 工 厂 类 ， 将 输入 元 素 存 放 
到 一 个 列表 中 。 

toCollection(): 该 方法 使 你 能 够 按照 相遇 时 的 排序 将 输入 元 素 
累加 到 一 个 新 的 Collection 工 厂 类 (TreeSet. LinkedHashSet 
等 ) 。 该 方法 接收 一 个 创建 该 Collection 的 Supplier 接 口 实现 作为 
参数 。 

maxBy() 和 minBy(): 该 方法 返回 一 个 Collector 工 厂 类 ， 根 据 以 
参数 传递 的 比较 器 产生 最 大 元 素 和 最 小 元 素 。 


toSet(): 该 方法 返回 一 个 Collector， 它 将 输入 元 素 存放 到 一 个 
Ee 





























9.2 ”第 一 个 例子 : 无 索引 条 件 下 的 数据 搜索 


在 第 8 章 中 ， 你 学 会 了 如 何 实现 一 个 搜索 工具 ， 使 用 倒 排 索引 查找 与 输 
入 查询 相似 的 文档 。 该 数据 结构 使 搜索 操作 更 加 方便 和 快捷 ， 但 是 在 有 
些 场景 下 ， 你 需要 针对 一 个 大 规模 数据 集 做 搜索 操作 ， 而 且 并 没有 倒 排 
索引 帮忙 。 这 时 需要 处 理 该 数据 集 的 所 有 元 素 以 获得 正确 结果 。 在 本 例 
中 ， 你 将 看 到 这 样 一 个 场景 ， 并 且 看 到 Stream API 的 reduce() 方 法 如 
何 能 帮助 你 。 


为 了 实现 该 示例 ， 将 使 用 亚马逊 联合 采购 网 络 元 数据 的 数据 子 集 ， 其 中 
包含 了 亚马逊 销售 的 约 548 552 个 商品 的 相关 信息 ， 包 括 商品 名 称 、 销 
售 排名 、 相 似 商 品 列表 、 类 别 和 评论 等 。 可 以 在 SNAP 搜 索 “Amazon 
product co-purchasing network metadata” 下 载 该 数据 集 。 我 们 选取 其 中 的 
前 20 000 个 商品 ， 并 且 将 每 个 商品 记录 都 存放 到 一 个 单独 的 文件 中 。 为 
了 便于 数据 处 理 ， 我 信和 更 改 了 其 中 某 些 字段 的 格式 。 所 有 字段 都 采 

用 property:value 格 式 。 


9.2.1 基本 类 
有 一 些 类 是 并 发 版 本 和 串 行 版 本 共享 的 。 在 此 详细 介绍 一 下 其 中 的 每 个 
Ro 
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01. Product% 
Product 类 存放 了 有 关 商 品 的 信息 。 下 面 给 出 了 Product 类 。 


id: 这 是 商品 的 唯一 标识 符 。 

asin: 这 是 亚马逊 的 标准 身份 识别 码 。 

title: 这 是 商品 的 名 称 。 

group: 这 是 商品 的 分 组 。 该 属性 的 取 值 可 以 为 Baby 
Product. Book. CD, DVD, Music. Software, Sports. To 
或 者 Video Games. 

salesrank: 这 表示 亚马逊 公司 的 销售 排名 。 

similar: 这 是 文件 中 所 包含 的 相似 项 的 数目 。 

categories: 这 是 一 个 String 对 象 列 表 ， 其 中 含有 指派 给 该 
商品 的 类 别 。 





02. 


03. 


。 reviews: 这 是 一 个 Review 对 象 列表 ， 其 中 含有 该 商品 的 评论 
(用 户 和 评分 ) 。 


该 类 仅 包 含 属 性 定义 以 及 与 之 对 应 的 getXXX() 方 法 和 setXXX() 方 
法 ， 因 此 这 里 不 再 给 出 其 源 代码 。 





Review% 


如 前 所 述 ，Product 类 含有 一 个 Review 对 象 列 表 ， 其 中 含有 用 户 对 
商品 的 评论 信息 。 该 类 用 如 下 两 个 属性 存放 了 每 个 评论 的 信息 。 


e user: 进行 评论 的 用 户 的 内 部 编码 。 
e value: 用 户 对 商品 的 评分 。 


该 类 仅 包 含 属 性 定义 以 及 对 应 的 getXXX() 和 setXXX() 方 法 ， 因 此 
不 再 给 出 源 代码 。 





ProductLoader 类 


ProductLoader 类 允许 你 从 某 个 文件 将 有 关 某 一 了 商品 的 信息 加 载 
到 Product 对 象 。 该 类 实现 了 load() 方 法 ， 该 方法 接收 一 个 Path 
对 象 〈 其 中 含有 商品 信息 的 文件 路 径 ) ， 并 且 返 回 一 个 Product 对 
象 。 其 源 代 码 如 下 : 





public class ProductLoader { 
public static Product load(Path path) { 
try (BufferedReader reader = Files.newBufferedReader(path)) { 

Product product=new Product(); 
String line=reader.readLine(); 
product.setId(line.split(":")[1]); 
line=reader.readLine(); 
product.setAsin(line.split(":")[1]); 
line=reader.readLine(); 
product.setTitle(line.substring (line.indexOf(':')+1)); 
line=reader.readLine(); 
product.setGroup(line.split(":")[1]); 
line=reader.readLine(); 
product.setSalesrank(Long.parseLong (line.split(":")[1])); 
line=reader.readLine(); 
product.setSimilar(line.split(":")[1]); 
line=reader.readLine(); 


int numItems=Integer.parseInt(line.split(":")[1]); 


for (int i=@; i<numItems; i++) { 
line=reader.readLine(); 
product.addCategory(line.split(":")[1]); 
} 


line=reader.readLine(); 

numItems=Integer.parseInt(line.split(":")[1]); 

for (int i=@; i<numItems; i++) { 
line=reader.readLine(); 
String tokens[]=line.split(":"); 
Review review=new Review(); 
review.setUser(tokens[1]); 
review.setValue(Short.parseShort (tokens[2])); 
product.addReview(review) ; 

} 

return product; 

} catch (IOException x) { 
throw newe UncheckedIOException(x) ; 








9.2.2 ”第 一 种 方式 : 基本 搜索 


第 一 种 方式 是 接收 一 个 单词 作为 输入 查询 ， 搜 索 所 有 存储 商品 信息 的 文 
件 ， 看 看 是 否 在 定义 商品 的 某 个 字段 中 含有 该 单词 ， 不 论 对 哪个 商品 都 
这 样 操作 。 这 将 仅 显 示 包 含 该 单词 的 文件 名 。 


为 了 实现 该 基本 方式 ， 我 们 实现 了 ConcurrentMainBasicSsearch 类 ， 
它 实 现 了 main() 方 法 。 首 先 ， 初 始 化 查询 和 存放 所 有 文件 的 基本 路 
A 


人 


位 。 

















public class ConcurrentMainBasicSearch { 


public static void main(String args[]) { 
String query = args[6]; 
Path file = Paths.get("data"); 








我 们 只 需要 一 个 流 来 生成 含有 结果 的 字符 串 列 表 ， 如 下 所 示 : 


try { 
Date start, end; 
start = new Date(); 
ConcurrentLinkedDeque<String> results = Files.walk(file, 


FileVisitOption.FOLLOW_LINKS).parallel().filter(f -> 

f.toString().endswith(".txt") ) 

.collect(ArrayList<String>: :new, 

new ConcurrentStringAccumulator (query), List::addA11) ; 
end = new Date(); 





PUNTA FELZ o 


(1) 使 用 Files 类 的 walk() 方 法 局 动 流 ， 将 文件 集合 的 基本 Path 对 象 作 
为 参数 传递 。 该 方法 将 所 有 文件 作为 流 返回 ， 并 且 返 回 该 路 径 下 的 所 有 
目录 。 


(2) 然后 ， 使 用 parallel() 方 法 将 该 流转 换 成 一 个 并 发 流 。 


(3) 我 们 仅 对 扩展 名 为 .txt 的 文件 感 兴趣 ， 因 此 使 用 filter() 方 法 对 文件 
WEFT IME o 


(4) 最 后 ， 使 用 collect() 方 法 将 Path 对 象 流转 换 为 String 对 象 〈 含 有 
文件 名 ) 的 ConcurrentLinkedDeque。 


ANTHEA collect () 方 法 的 三 参数 版 本 用 到 了 下 述 函 数 型 参数 。 


e Supplier: 使 用 ArrayList 类 的 new 方 法 引用 为 每 个 线程 创建 一 个 新 
的 数据 结构 ， 以 便 存放 相应 结果 。 

e Accumulator: 我 们 在 ConcurrentStringAccumulator 类 中 实现 了 
自己 的 Accumulator。 稍 后 将 详细 介绍 该 类 。 

e Combiner: 使 用 ConcurrentLinkedDeque 类 的 addA11() 方 法 连接 
两 个 数据 结构 。 在 本 例 中 ， 会 将 第 二 个 Collection 中 的 所 有 元 素 添 加 
到 第 一 个 Collection 中 。 而 第 一 个 Collection 既 可 用 于 进一步 的 合 
并 ， 也 可 以 作为 最 终结 果 。 


最 后 ， 在 控制 台 输 出 从 流 获 得 的 结果 。 








System.out.println("Results for Query: "+query); 
System. out. println( "****FFEEEEERE" ) | 
results.forEach(System.out::println) ; 


System.out.println("EXxecution Time: "+(end.getTime()- 
start.getTime())); 
} catch (IOException e) { 
e.printStackTrace(); 





每 当 要 处 理 流 的 一 个 路 径 以 评估 是 人 否 必须 将 其 名 称 包含 到 结 末 列表 中 
时 ， 都 要 执行 Accumulator 水 数 型 参数 。 为 实现 这 种 功能 ， 我 们 实现 了 
ConcurrentSstringAccumulator 类 。 下 面 看 看 该 类 的 详细 情况 。 


ConcurrentStringAccumulator% 





ConcurrentSstringAccumulator 类 加 载 了 一 个 带 有 商品 信息 的 文件 ， 
以 判断 它 是 否 包含 查询 中 的 术语 。 它 实现 了 BiConsumer 接 口 ， 这 是 因 
为 我 们 要 将 其 用 作 collect() 方 法 的 一 个 参数 。 使 用 List<String> 类 
和 Path 类 参数 化 该 接口 。 





public class ConcurrentStringAccumulator implements BiConsumer 
<List<String>, Path> { 


See ee 并 该 属性 在 构造 函数 中 被 初始 化 ， 如 下 
ZN o 


private String word; 


public ConcurrentStringAccumulator (String word) { 
this.word=word.toLowerCase(); 


} 








然后 ， 实 现在 BiConsumer 接 口中 定义 的 accept() 方 法 。 该 方法 接收 两 
个 参数 : 一 个 是 ConcurrentLinkedDeque<String> 类 ， 另 一 个 是 Path 


类 。 


为 了 加 载 文件 并 且 判 断 它 是 否 包含 该 查询 ， 使 用 以 下 的 流 。 








@Override 
public void accept(List<String> list, Path path) { 


long counter; 


try { 
counter = Files.lines(path).map(1 -> 1.split(":")[1].toLowerCase()) 
.filter(1 -> 1.contains(word.toLowerCase())).count(); 





我 们 的 流 包 含 下 述 元 系 。 


(1) 首先 ， 使 用 Files 类 的 lines() 方 法 加 载 文 件 中 的 行 到 一 个 流 。 文 件 
每 一 行 均 参 照 property: value 格 式 。 


(2) 其 次 ， 使 用 map( ) 方 法 获取 每 个 属性 的 取 值 。 
(3) 然后 ， 使 用 filter() 方 法 仅 选 取 那 些 含 有 竺 搜索 单词 的 行 。 
(4) 最 后 ， 使 用 count () 方 法 计算 流 中 剩 下 的 元 素数 。 


如 果 Counter 变 量 的 值 大 于 0， 那 么 该 文件 包含 查询 术语 ， 如 此 便 将 该 文 
件 的 名 称 添加 到 存放 结果 的 ConcurrentLinkedDeque 类 。 





if (counter>@) { 
list.add(path.toString()); 


} 
} catch (Exception e) { 


System.out.println(path) ; 
e.printStackTrace(); 








9.2.3 第 二 种 方式 : 高 级 搜索 
基本 搜索 方式 存在 一 些 缺 陷 。 


。 该 方式 在 所 有 属性 中 查找 查询 中 的 术语 ， 但 是 或 许 我 们 只 想 对 其 中 
的 一 部 分 进行 查找 ， 例 如 在 商品 名 称 中 查找 。 

。 该 方式 仅 显 示 文 件 名 ， 但 是 其 实 还 可 以 显示 更 多 的 信息 ， 例 如 也 可 
以 显示 商品 名 称 这 样 的 附加 信息 。 


为 了 解决 这 些 问 题 ， 我 们 将 构造 一 个 实现 main() 方 法 的 
ConcurrentMainSearch 类 。 首 先 ， 初 始 化 查询 和 存放 所 有 文件 的 基 

















础 Path 对 象 。 


public class ConcurrentMainSearch { 
public static void main(String args[]) { 


String query = args[6]; 
Path file = Paths.get("data"); 


然后 ， 使 用 下 面 的 流 来 生成 有 关 Product 对 象 的 


ConcurrentLinkedDequeX. 





try { 
Date start, end; 


start=new Date(); 

List<Product> results = Files.walk(file, FileVisitOption 
.FOLLOW_LINKS).parallel().filter(f -> f 
.toString().endswWith(".txt")) 
.collect(ArrayList<Product>::new, new 
ConcurrentObjectAccumulator (query), 
List: :addAl11); 














这 个 流 和 在 基本 方式 中 实现 的 流 具 有 相同 的 元 素 ， 只 是 有 下 述 两 点 变 
Ka 


。 在 collect() 方 法 中 ， 在 Accumulator 参 数 中 使 用 了 
ConcurrentObjectAccumulator 类 。 


。 使 用 Product 对 象 参数 化 ConcurrentLinkedDeque 类 。 


最 后 ， 在 控制 台中 输出 结果 。 但 是 在 本 例 中 ， 我 们 输出 每 个 商品 的 名 
称 。 


System.out.println("Results"); 

System. out. println( "****FEFEREEEE") | 

results.forEach(p -> System.out.println(p.getTitle())); 

System.out.println( "Execution Time: "+(end.getTime() - 
start.getTime())); 


catch (IOException e) { 
e.printStackTrace(); 





你 可 以 更 改 上 述 代 码 ， 输 出 有 关 商 品 的 其 他 任何 信息 ， 例 如 销售 排名 或 
者 类 别 。 


与 之 前 相 比 ， 这 一 实现 最 重要 的 变化 在 于 
ConcurrentoObJjectAccumulator 类 。 下 面 详细 介绍 一 下 该 类 。 





ConcurrentObjectAccumulator% 





ConcurrentObJjectAccumulator 类 实现 了 BiConsumer 接 口 ， 该 接口 

由 ConcurrentLinkedDeque<Product> 类 和 Path 类 参数 化 ， 这 是 因为 
我 们 希望 在 collect() 方 法 中 使 用 它 。 该 类 定义 了 名 为 word 的 内 部 属性 
来 存放 碍 询 中 的 术语 。 访 属性 在 该 类 的 构造 函数 中 初始 化 。 


public class ConcurrentObjectAccumulator implements BiConsumer 
<List<Product>, Path> { 


private String word; 


public ConcurrentObjectAccumulator(String word) { 
this.word = word; 


} 





accept() 方 法 〈 在 BiConsumer 接 口中 定义 ) 的 实现 非常 简单 。 


@Override 
public void accept(List<Product> list, Path path) { 


Product product=ProductLoader.load(path) ; 


if (product.getTitle().toLowerCase().contains(word.toLowerCase())){ 
list.add(product) ; 





该 方法 接收 指向 竺 处理 文件 的 Path 对 象 作 为 参数 ， 并 采 
用 ConcurrentLinkedDeque 类 存放 结果 。 我 们 使 用 ProductLoader 类 
将 待 处 理 文件 加 载 到 Product 对 象 ， 然 后 检查 该 商品 的 名 称 中 是 否 包含 
查询 中 的 术语 。 如 果 包 含 ， 那 么 将 该 Product 对 象 添 加 


到 ConcurrentLinkedDeque 类 。 


9.2.4 本 例 的 串 行 实现 


与 本 书 的 其 他 例子 一 样 ， 两 个 版 本 的 搜索 操作 都 实现 了 一 个 串 行 版 本 ， 
以 便 验 证 并 发 流 是 否 能 带 来 性 能 上 的 改进 。 


你 可 以 在 前 面 介 绍 的 四 个 类 中 删除 Stream 对 象 中 parallel() 方 法 的 调 
用 该 方法 使 流 变 为 并 发 流 ) ， 实 现 与 之 对 等 的 串 行 版 本 。 


在 本 书 的 源 代码 中 ， 我 们 给 出 了 
SerialMainBasicSearch, SerialMainSearch, SerialStringAccu 
和 Serial0bjectAccumulator 等 类 ， 它 们 都 是 按照 前 面 的 更 改 方法 得 
到 的 与 并 行 版 对 等 的 串 行 版 类 。 





9.2.5 ”对比 实现 方案 


我 们 对 实现 方案 (两 种 方案 : 串 行 版 和 并 发 版 ) 进行 了 测试 ， 以 比较 其 
执行 时 间 。 为 进行 测试 ， 采 用 了 三 种 碍 询 。 


e Patterns 
e Java 
e Tree 


我 们 采用 JMH 框 架 执行 了 这 些 示 例 ， 该 框架 允许 在 Java 中 实现 微型 基准 
测试 。 使 用 面 同 基准 测试 的 框架 是 比较 好 的 解决 方案 ， 它 直接 

用 currentTimeMil1lis()、nanoTime( ) 等 方法 度量 时 间 。 在 两 种 不 同 
的 架构 上 分 别 执行 这 些 示例 10 次 。 


。 一 台 计 算 机 配置 了 Intel Core i5-5300 处 理 器 、Windows 7 操作 系统 和 
16GB 的 RAM。 访 处 理 器 有 两 个 核 ， 且 每 个 核 可 以 执行 两 个 线程 ， 
这 样 就 有 四 个 并 行 线程 。 

。 另 一 台 计 算 机 配置 了 AMD A8-640 处 理 器 、Windows 10 操 作 系 统 和 
8GB 的 RAM。 该 处 理 器 有 四 个 核 。 


下 表 给 出 了 用 坚 秒 表示 的 结果 。 前 先 ， 展 示 字 符 串 搜索 操作 的 结 











Java Patterns Tree Java Patterns Tree 





品行 版 “| 735.569 709.484 |700.929 |2245.603 |2243.152 |2207.034 








现在 ， 对 象 搜索 操作 的 结果 如 下 。 


字符 串 搜 索 


Intel 架 构 AMD 架 构 
ma | pavers [Tree | Java Paterss | Tree | 








品行 版 “| 867.534 840.082 “|854.299 |2723.535 [2634.614 |2640.329 
并 发 版 “| 460.29 463.201 |476.244 |1218.425 |1232.45 1204.245 





可 以 得 到 如 下 结论 。 


。 执行 不 同 的 查询 时 ， 结 采 非 常 相似 。 和 它们 之 间 仪 相关 数 坚 秒 。 
。 字符 串 搜 索 的 执行 时 间 总 是 比 对 象 搜索 的 执行 时 间 更 优 。 
。 在 所 有 情况 下 ， 并 发 流 的 性 能 都 比 串 行 流 更 好 。 


如 果 对 并 发 版 和 串 行 版 加 以 比较 ， 例 如 ， 使 用 加 速 比比 较 查 询 Patterns 
的 字符 串 搜 索 情 况 ， 可 以 得 到 下 面 的 结果 。 


T serial 2243.152 下 
SAMD = = = - = 2.15 
Tconcurrent 1045.201 
Y Tserial 709.484 7 
Intel = = — = 1.35 
T concurrent 924.252 














93 第 二 个 例子 : 推荐 系统 


推荐 系统 基于 用 户 曾经 购买 /使 用 过 的 商品 /服务 回 其 推荐 商品 或 服务 ， 
或 者 基于 兽 经 购买 /使 用 过 同样 服务 的 用 户 所 购买 /使 用 过 的 商品 /服务 问 
其 推荐 商品 或 服务 。 


我 们 使 用 在 上 一 节 介绍 过 的 例子 实现 了 一 个 推荐 系统 。 商 品 的 每 个 描述 
包括 很 多 用 户 对 商品 的 评论 。 这 些 评论 中 还 含有 用 户 对 该 商品 的 评分 。 


在 本 例 中 ， 你 将 通过 这 些 评论 获得 茶 个 用 户 可 能 感 兴趣 的 商品 列表 。 我 
们 将 获得 一 个 用 户 所 购买 商品 的 列表 。 为 了 得 到 该 列表 ， 需 要 对 购买 过 
这 些 商品 的 用 户 列表 和 那些 用 户 所 购买 过 的 商品 列表 进行 排 夺 ， 而 这 束 
要 用 到 评论 中 的 平均 打分 。 这 样 就 可 以 得 到 针对 该 用 户 的 建议 商品 。 

















9.3.1 公共 类 
我 们 在 上 一 节 使 用 的 公共 类 中 增加 了 两 个 新 类 。 如 下 所 示 。 


e ProductReview: 该 类 采用 两 个 新 属性 扩展 了 Product 类 。 
e ProductRecommendation: 该 类 存储 了 一 个 商品 的 推荐 信息 。 


下 面 看 看 这 两 个 类 的 详细 信息 。 











01. ProductReview 类 
ProductReview 类 扩展 了 Product 类 ， 它 增加 了 两 个 新 属性 。 


。 buyer: 该 属性 存放 了 商品 客户 的 名 称 。 
。 value: 该 属性 存放 了 该 客户 在 其 评论 中 对 商品 的 评价 。 


该 类 中 包含 了 对 这 两 个 属性 的 定义 、 对 应 的 getXXX() 和 setXXX() 
方法 、 一 个 构造 函数 (基于 Product 对 象 创建 ProductReview 对 
象 ) ， 以 及 新 属性 的 值 。 该 类 非常 简单 ， 因 此 这 里 不 提供 其 源 代 
iH 


02. ProductRecommendation 类 


ProductRecommendation 类 存放 了 商品 推荐 所 需 的 必要 信息 ， 包 
括 如 下 内 容 。 


e title: 我 们 要 推荐 的 商品 名 称 
° a 推荐 的 分 值 ， 这 是 通过 计算 商品 所 有 评论 人 的 平均 分 值 
得 到 的 。 


该 类 包含 了 属性 定义 、 相 应 的 getXXX() 和 setXXX() 方 法 ， 以 及 
compareTo() 方 法 的 实现 〈 该 类 实现 了 Comparab1le 接 口 ) ， 通 过 
compareTo() 方 法 可 以 按照 降序 对 推荐 评分 进行 排序 。 该 类 非常 简 
单 ， 此 处 不 提供 其 源码 。 











9.3.2 ”推荐 系统 : ER 


我 们 在 ConcurrentMainRecommendation 类 中 实现 了 我 们 的 算法 ， 以 
获得 针对 某 个 客户 的 推荐 商品 列表 。 该 类 实现 了 main() 方 法 ， 该 方法 
接收 要 获取 推荐 商品 的 客户 ID 作为 参数 。 我 们 有 如 下 代码 。 





public static void main(String[] args) { 
String user = args[®@]; 
Path file = Paths.get("data"); 


try { 
Date start, end; 
start=new Date(); 


我 们 在 最 终 解 决 方案 中 使 用 了 不 同 的 流 来 转换 数据 。 第 一 个 流 从 其 文件 
中 加 载 整个 Product 对 象 列 表 。 





List<Product> productList = Files.walk(file, FileVisitOption 
.FOLLOW_LINKS).parallel().filter(f-> f 
.toString().endsWith(".txt")) 


.collect(ArrayList<Product>::new, new 
ConcurrentLoaderAccumulator(), 
List: :addAl11) ; 








该 流 有 如 下 元 素 。 


(1) 使 用 Files 类 的 walk() 方 法 启动 该 流 。 该 方法 将 创建 一 个 流 来 处 理 
Data 目 录 下 的 所 有 文件 和 目录 。 





(2) 然后 ， 使 用 parallel() 方 法 将 该 流转 换 成 一 个 并 发 流 。 
(3) 之 后 ， 仅 获取 扩展 名 为 .txt 的 文件 。 


(4) 最 后 ， 使 用 collect() 方 法 获取 Product 对 象 的 
ConcurrentLinkedDeque 类 。 访 类 和 之 前 用 到 的 类 非常 相似 ， 不 同 之 
处 是 采用 了 男 一 个 Accumulator。 本 例 用 到 了 
ConcurrentLoaderAccumulator 类 ， 这 将 在 稍 后 进行 介绍 。 


一 旦 获取 到 隘 品 列表 ， 便 准备 用 一 个 Map 组 织 这 些 丙 品 ， 将 客户 的 标识 
作为 该 Map 的 键 。 使 用 ProductReview 类 来 存放 有 关 这 些 商 品 的 客户 信 
居 。 我 们 需要 为 每 个 商品 评论 创建 一 个 ProductReview 对 象 。 使 用 下 面 
的 流 完 成 该 转换 。 





Map<String, List<ProductReview>> productsByBuyer= 
productList.parallelStream() 
.<ProductReview>flatMap(p -> p.getReviews() 


.stream().map(r -> new ProductReview(p, r.getUser(), 
r.getValue()))).collect(Collectors 
.groupingByConcurrent( p -> p.getBuyer())); 











该 流 具 有 下 述 元 素 。 


(1) 采用 productList 对 象 的 parallelStream( ) 方 法 启动 该 流 ， 这 样 
就 创建 了 一 个 并 发 流 。 


(2) 然后 ， 使 用 flatMap() 方 法 将 现 有 的 Product 对 象 流转 换 成 一 个 唯 
一 的 ProductReview 对 象 流 。 





(3) 最 后 ， 使 用 collect() 方 法 生成 最 后 的 Map。 本 例 用 到 了 

由 Collectors 类 的 groupingByConcurrent() 方 法 生成 的 预定 义 收集 
器 。 返 回 的 收集 器 将 生成 一 个 Map， 其 键 为 购买 者 属性 的 取 值 ， 而 其 值 
为 一 个 ProductReview 对 象 列表 ， 其 中 含有 该 用 户 所 购买 商品 的 信息 。 
正如 该 方法 的 名 称 所 示 ， 该 转换 将 以 并 发 方式 执行 。 


接 下 来 是 本 例 中 最 重要 的 一 个 流 。 选 定 菜 个 客户 购买 的 商品 并 且 生 成 对 
该 客户 的 推荐 。 这 是 由 一 个 流 完成 的 有 两 个 阶段 的 过 程 。 第 一 个 阶段 ， 
获取 购买 了 原 客 户 所 购买 商品 的 用 户 。 第 二 个 阶段 ， 生 成 一 个 Map， 其 
中 含有 这 些 客户 所 购买 的 商品 ， 以 及 这 些 客户 针对 商品 所 做 的 评论 。 该 








流 的 代码 如 下 。 


Map<String,List<ProductReview>> recommendedProducts= productsByBuyer 
.get(user).parallelStream().map(p -> p 
.getReviews()).flatMap(Collection: : stream) 
.map(r -> r.getUser()).distinct() 


.map(productsByBuyer: :get) 

. flatMap(Collection: : stream) 

.collect(Collectors.groupingByConcurrent 
(p -> p-getTitle())); 
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(1) 首先 ， 获 取 用 户 所 购买 商品 的 列表 ， 并 且 使 用 parallelStream() 
方法 来 生成 一 个 并 发 流 。 


(2) 然后 ， 使 用 map( ) 方 法 获取 所 有 有 关 这 些 商 品 的 评论 。 


(3) 此 时 ， 有 了 一 个 List<Review> 流 。 将 该 流转 换 成 一 个 Review 对 象 
流 。 现 在 ， 就 有 了 一 个 含有 用 户 所 购买 商品 的 全 部 评论 的 流 。 


(4) 然后 ， 将 该 流转 换 成 一 个 String 对 象 流 ， 其 中 含有 提交 这 些 评论 的 
用 户 的 名 称 。 


(5) 然后 ， 使 用 distinct() 方 获取 唯一 的 用 户 名称 。 现 在 就 有 了 一 
个 String 对 象 流 ， 其 中 包含 了 那些 与 原 用 户 购买 了 相同 商品 的 用 户 名 
称 。 

(6) 然后 ， 使 用 map( ) 方 法 将 每 个 客户 与 其 已 购 丙 品 列表 对 应 起 来 。 


(7) 此 时 ， 就 有 了 一 个 List<ProductReview> 对 象 流 。 使 用 flatMap() 
方法 将 该 流转 换 成 一 个 ProductReview 对 象 流 。 











(8) 最 后 ， 使 用 collect() 方 法 和 groupingByConcurrent() 收 集 器 生 
成 一 个 商品 Map。 该 Map 的 键 是 商品 名 称 ， 而 其 值 为 ProductReview 对 
象 列表 ， 该 列表 含有 前 面 已 获取 到 的 客户 评论 。 


为 了 完成 该 推荐 算法 ， 还 需要 最 后 一 步 。 对 于 每 个 商品 ， 都 布 望 计算 其 
在 评论 中 的 平均 分 值 ， 并 且 按 照 降 序 对 该 列表 进行 排序 ， 以 便 将 排 在 前 
面 的 商品 放 在 首要 位 置 显示 。 为 了 进行 这 样 的 转换 ， 要 采用 一 个 额外 的 
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ConcurrentLinkedDeque<ProductRecommendation> recommendations 
= recommendedProducts.entrySet().parallelStream() 
.map(entry -> new ProductRecommendation(entry 
.getKey(), entry.getValue().stream().mapToInt(p-> 
p.getValue()).average().getAsDouble())) 
.Sorted().collect(Collectors.toCollection 
(ConcurrentLinkedDeque: : new) ); 
end=new Date(); 
recommendations. forEach(pr -> System.out.println (pr.getTitle() 
+": "+pr.getValue())); 


System.out.println("Execution Time: "+(end.getTime() - 
start.getTime())); 


catch (IOException e) { 
e.printStackTrace(); 





处 理 上 一 步 得 到 的 Map。 对 于 每 个 商品 ， 对 其 评论 列表 进行 处 理 ， 生 成 
一 个 ProductRecommendation 对 象 。 需 要 通过 一 个 流 来 计算 每 个 评论 
的 平均 值 作为 该 对 象 的 值 ， 这 就 要 使 用 mapToInt() 方 法 

将 ProductReview 对 象 转换 成 一 个 整数 流 ， 并 且 使 用 average( ) 方 法 求 
取 字 符 串 中 所 有 数值 的 平均 值 。 


最 后 ， 在 关于 推荐 的 ConcurrentLinkedDeque 类 中 ， 有 一 
个 ProductRecommendation 对 象 列 表 。 使 用 其 他 带 有 sorted( ) 方 法 的 
流 对 该 列表 进行 排序 。 使 用 该 流 将 最 终 列 表 输 出 到 控制 台 。 











9.3.3 ConcurrentLoaderAccumulator 类 


为 了 实现 本 例 ， 使 用 了 ConcurrentLoaderAccumulator 类 ， 它 

在 collect() 方 法 中 用 作 Accumulator 函 数 ， 将 含有 全 部 待 处 理 文 件 路 径 
的 Path 对 象 流转 换 为 关于 Product 对 象 的 ConcurrentLinkedDeque 
类 。 该 类 的 源 代 码 如 下 : 


public class ConcurrentLoaderAccumulator implements 
BiConsumer<List<Product>, Path> { 


@Override 
public void accept(List<Product> list, Path path) { 


Product product=ProductLoader.load(path) ; 
list.add(product) ; 





上 述 源 代码 实现 了 BiCconsumer 接 口 。 其 中 accept() 方 法 使 
用 ProducLoader 类 (在 本 章 前 面 做 过 解释 ) 从 文件 中 加 载 商品 信息 ， 
并 且 将 作为 结果 的 Product 对 象 添 加 到 以 参数 传递 的 List 类 。 


9.3.4 FRITH 


正如 本 书 的 其 他 例子 一 样 ， 本 例 也 实现 了 一 个 串 行 版 本 ， 以 检验 并 行 流 
对 应 用 程序 性 能 的 提升 情况 。 为 了 实现 该 串 行 版 本 ， 要 遵循 下 述 步 又 。 


(1) 将 ConcurrentLinkedDeque 数 据 结 构 蔡 换 为 List 或 ArrayList 数 据 


结构 。 


(2) 将 parallelstrem() 方 法 更 改 为 stream( ) 方 法 。 
(3) 将 gropingByConcurrent() 方 法 更 改 为 groupingBy() 方 法 。 
可 以 在 本 书 配 套 的 源 代码 中 查看 本 例 的 串 行 版 。 


9.3.5 ”对比 两 个 版 本 
为 了 对 比 推荐 系统 的 串 行 版 和 并 发 版 ， 我 们 获取 了 三 个 用 户 的 推荐 商 
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e A2VE83MZF98ITY 
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测试 。 使 用 面 同 基准 测试 的 框架 是 比较 好 的 解决 方案 ， 它 直接 
用 currentTimeMil1is() 方 法 或 者 nanoTime() 方 法 度量 时 间 。 在 两 种 





不 同 的 架构 上 分 别 执行 这 些 示例 10 次 。 


。 一 台 计 算 机 配置 了 Intel Core i5-5300 处 理 器 、Windows 7 操作 系统 和 
16GB 的 RAM。 访 处 理 器 有 两 个 核 ， 且 每 个 核 可 以 执行 两 个 线程 ， 
这 样 就 有 四 个 并 行 线程 。 

。 另 一 台 计 算 机 配置 了 AMD A8-640 处 理 器 、Windows 10 操 作 系 统 和 
8GB 的 RAM。 该 处 理 器 有 四 个 核 。 


用 晶 秒 表示 的 结果 如 下 。 
| Movosrr oz | azrwerovanenax | azvenmzesarry 


Intel 架 构 


1639.685 1542.804 





并 发 版 | 1030.635 1061.247 


AMD 架 构 


3361.956 3412.680 
并 发 版 |1866.653 1871.919 











可 以 得 出 如 下 结论 。 


。 针 对 这 三 个 用 户 得 到 的 结果 非常 相似 。 
。 并 发 流 的 执行 时 间 总 是 比 顺序 流 的 执行 时 间 更 优 。 


如 果 对 比 并 发 版 本 和 串 行 版 本 ， 例 如 ， 对 第 二 个 用 户 的 结果 使 用 加 速 
比 ， 可 得 到 如 下 结果 。 





Tserial 3412.680 
SAMD = = ——— = 1.82 
Tconcurrent 187 1.919 
. T serial 1542.804 要 
Intel = = = 1.45 





T concurrent 1061 247 7 





9.4 ”第 三 个 例子 : 社交 网 络 中 的 共同 联系 人 


社交 网 络 正 在 改变 着 社会 ， 也 改变 着 人 们 相互 之 间 的 联系 方式 。 
Facebook、Linkedin、Twitter 以 及 Imstagram 都 拥有 数 百 万 用 户 ， 他 们 使 
用 这 些 网 络 与 朋友 分 享 生 活 中 的 每 个 瞬间 ， 建 立新 的 职业 联系 ， 提 升 专 
业 品 牌 ， 与 新 人 会 见 ， 或 者 只 是 了 解 一 下 世界 的 最 新 发 展 趋 势 。 


可 以 将 社交 网 络 视 为 一 个 图 ， 其 中 用 户 是 节点 ， 而 用 户 之 间 的 关系 是 

边 。 和 图 一 样 ， 在 像 Facebook 这 样 的 社交 网 络 中 ， 用 户 之 则 的 关系 既 可 
以 是 无 加 的， 也 可 以 是 双向 的 。 如 果 用 户 A 与 用 户 B 相 关联 ， 那 么 用 户 B 
也 束 与 用 户 A 相 关联 。 与 之 相反 ， 在 像 Twitter 这 样 的 社交 网 络 中 ， 用 户 
之 间 的 关系 是 有 回 的 。 在 这 种 情况 下 ， 我 们 称 用 户 A 关 注 用 户 B， 但 是 
反 过 来 就 不 一 定 为 真 了 。 


本 节 将 实现 一 个 算法 来 计算 社交 网 络 中 每 一 对 用 户 之 间 的 共同 联系 人 ， 
且 该 社交 网 络 中 用 户 之 间 为 双 同 关系 。 我 们 将 实现 Steve Krenzel 

在 “MapReduce: Finding Friends” 中 讲述 的 算法 。 该 算法 的 主要 步骤 如 
下 








。 数据 源 是 一 个 存放 有 每 个 用 户 及 其 联系 人 的 文件 。 








这 就 意味 着 用 户 A 的 联系 人 是 用 户 B、C 和 D。 考 虑 到 他 们 之 间 的 关 
系 是 双 辐 的 ， 因 此 如 果 B 是 A 的 联系 人 人， 那么 A 也 是 B 的 联系 人 ， 而 





且 在 文件 中 这 两 个 关系 都 要 描述 。 这 样 ， 我 们 的 元 素 就 有 下 述 两 个 


部 分 。 


。 一 个 用 户 标识 符 。 
。 该 用 户 的 联系 人 列表 。 
下 一 步 ， 生 成 一 个 元 素 集合 ， 其 中 每 个 元 素 都 有 三 个 部 分 。 这 三 个 
部 分 如 下 所 示 。 
。 一 个 用 户 标识 符 。 





o 一 个 朋友 的 用 户 标 识 。 
o 该 用 户 的 联系 人 列表 。 


。 因此 ， 对 于 用 户 A， 将 生成 下 述 元 素 。 


>D 
J 中 四 
` 1 1 
w 四 四 
we we fw 
NaN 
J v J 
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按照 字母 表 顺 序 排 序 。 这 样 ， 对 用 户 B， 就 可 以 生成 下 述 元 素 。 














一 旦 生成 所 有 的 新 元 素 后 ， 束 按照 两 个 用 户 标 识 符 对 它们 进行 分 
组 。 例如， 对 于 元 组 A-B， 将 生成 下 面 的 分 组 。 


A-B-(B,C,D), (A,C,D,E) 


最 后 ， 计 算 两 个 列表 的 交集 。 得 到 的 结果 列表 就 是 两 个 用 户 之 间 的 
共同 联系 人 人。 例如， 用 户 A 和 B 的 共同 联系 人 是 C 和 D。 

为 了 测试 该 算法 ， 使 用 了 两 个 数据 集 。 

。 前 面 给 出 的 测试 样 例 。 

e 社交 圈 : 可 通过 网 址 https://snap.stanford.edu/data/egonets- 
Facebook.html 下 载 Facebook 数 据 集 ， 其 中 含有 4039 个 Facebook 用 户 
的 联系 人 信息 。 我 们 已 经 将 原始 数据 转换 成 为 本 例 中 要 用 到 的 数据 


格式 。 


9.4.1 基本 类 


与 本 书 中 的 其 他 例子 一 样 ， 我 们 也 实现 了 本 例 的 串 行 版 本 和 并 发 版 本 ， 
以 此 来 验证 并 发 流 对 应 用 程序 性 能 的 改进 情况 。 这 两 个 版 本 的 程序 有 一 


些 共同 的 类 。 


01. Person% 


02. 


03. 


Person 类 存储 了 关于 社交 网 络 中 每 个 人 的 信息 ， 它 包括 如 下 要 


FIN o 


e。 它 的 用 户 ID， 存 放 在 ID 属性 中 。 
。 该 用 户 的 联系 人 列表 ， 以 一 个 String 对 象 列表 的 形式 存放 在 
联系 人 属性 中 。 


该 类 声明 了 上 述 两 个 属性 ， 以 及 与 之 对 应 的 getXXX() 方 法 和 
setXXX() 方 法 。 此 外 ， 还 需要 一 个 构造 函数 以 创建 该 联系 人 列 
表 ， 还 有 一 个 名 为 addContact() 的 方法 ， 该 方法 用 于 将 单个 联系 
人 添加 到 联系 人 列表 。 该 类 的 源码 非常 简单 ， 在 此 不 再 给 出 。 


PersonPair 类 


PersonPair 类 扩展 了 Person 类 ， 增 加 了 存放 第 二 个 用 户 标 识 符 的 
属性 。 将 该 属性 称 作 otherId。 该 类 声明 了 该 属性 以 及 相应 的 
getXXX() 方 法 和 setXXX() 方 法 。 还 需要 一 个 名 为 getFul1LId() 的 
方法 ， 该 方法 返回 一 个 含有 两 个 用 户 标 识 符 的 字符 串 ， 它 们 之 间 采 
用 字符 , 分隔。 该 类 的 源 代 码 非常 简单 ， 因 此 这 里 不 再 给 出 。 


DataLoader2& 


DataLoader 类 加 载 珊 有 用 户 信 息 及 其 联系 人 的 文件 ， 并 且 将 其 转 
换 成 一 个 Person 对 象 列 表 。 该 类 仅 实 现 了 一 个 名 为 1oad() 的 静态 
方法 ， 该 方法 接收 以 String 对 象 出 现 的 文件 路 径 作 为 参数 ， 并 且 
返回 Person 对 象 列表 。 


如 前 所 示 ， 该 文件 具有 如 下 格式 。 








User-C1,C2,C3...CN 





其 中 ，User 是 用 户 的 标识 符 ， 而 C1、C2、C3.. .CN 都 是 该 用 户 联 
系 人 的 标识 符 。 


该 类 的 源 代码 非常 简单 ， 在 此 不 再 给 出 。 


9.4.2 并 发 版 本 
首先 ， 分 析 一 下 该 算法 的 并 发 版 本 。 
01. CommonPersonMapper 类 


CommonPersonMapper 类 是 稍 后 将 要 用 到 的 一 个 辅助 类 。 它 将 生成 
所 有 的 PersonPair 对 象 ， 这 些 对 象 可 以 从 Person 对 象 生成 。 该 类 
实现 了 Function 接 口 ， 而 该 接口 采用 Person 类 和 
List<PersonPair> 类 参数 化 。 


该 类 实现 了 Fuction 接 口中 定义 的 apply() 方 法 。 首 先 ， 初 始 化 将 
要 返回 的 List<PersonPair> 对 象 ， 并 且 对 联系 人 列表 进行 排序 。 


public class CommonPersonMapper implements Function<Person, 
List<PersonPair>> { 


@Override 
public List<PersonPair> apply(Person person) { 


List<PersonPair> ret=new ArrayList<>(); 


List<String> contacts=person.getContacts(); 
Collections.sort(contacts) ; 





然后 ， 处 理 整 个 联系 人 列表 ， 为 每 个 联系 人 创建 PersonPair 对 
象 。 如 前 所 述 ， 按 照 字 母 表 顺序 存放 两 个 联系 人 。 按 字母 表 排 序 靠 
前 的 存放 在 ID 字段 中 ， 而 另 一 个 则 存放 在 otherId 字 段 中 。 














for (String contact : contacts) { 
PersonPair personExt=new PersonPair(); 
if (person.getId().compareTo(contact) < 6) { 
personExt.setId(person.getId()); 


personExt.setOtherId(contact) ; 
} else { 
personExt.setId(contact) ; 
personExt.setOtherId(person.getId()); 
} 





最 后 ， 将 联系 人 列表 诬 加 到 新 对 象 ， 并 且 将 该 对 象 添 加 到 结果 列 
表 。 处 理 完 所 有 的 联系 人 后 ， 返 回 结果 列表 。 


personExt.setContacts(contacts); 
ret.add(personExt) ; 


} 
return ret; 
} 
} 





02. ConcurrentSocialNetwork2& 


ConcurrentSocialNetwork 类 是 本 例 的 主 类 。 它 仅仅 实现 了 一 个 
名 为 bidirectionalCommonContacts() 的 静态 方法 。 该 方法 接收 
社交 网 络 上 的 人 员 列 表 (含有 联系 人 ) ， 并 且 返 回 一 

个 PersonPair 对 象 列表 ， 这 些 PersonPair 对 象 中 含有 每 一 对 互 为 
联系 人 的 用 户 之 间 的 共同 联系 人 。 


从 内 部 来 看 ， 我 们 使 用 不 同 的 流 来 实现 自己 的 算法 。 我 们 使 用 第 一 
个 流 将 Person 对 象 的 输入 列表 转换 成 一 个 Map。 该 Map 的 键 为 每 一 
对 用 户 的 两 个 标识 符 ， 而 其 值 为 一 个 含有 两 个 用 户 联系 人 的 
PersonPair 对 象 列表 。 这 样 ， 这 些 列表 总 是 有 两 个 元 素 。 代 码 如 
T: 





public class ConcurrentSocialNetwork { 


public static List<PersonPair> bidirectionalCommonContacts 
(List<Person> people) { Map<Str 


List<PersonPair>> group = people.parallelStream() 
.map(new CommonPersonMapper()) 
.flatMap(Collection::stream) 
.collect(Collectors.groupingByConcurrent 
(PersonPair: :getFullld)); 





该 流 有 如 下 组 件 。 

(1) 使 用 输入 列表 的 parallelStream() 方 法 创建 流 。 

(2) 然后 ， 使 用 map( ) 方 法 和 前 面 提 到 的 CommonPersonMapper 类 将 
每 个 Person 对 象 都 转换 到 一 个 PersonPair 对 象 列表 中 ， 这 其 中 考 
虑 到 了 该 对 象 的 所 有 可 能 结果 。 


(3) 此 时 ， 有 了 一 个 List<PersonPair> 对 象 流 。 我 们 使 





用 flatMap() 方 法 将 该 流转 换 成 一 个 PersonPair 对 象 流 。 


(4) 最 后 ， 使 用 collect() 方 法 生成 该 Map， 这 要 用 
到 groupingByConcurrent() 方 法 返回 的 收集 器 ， 而 采 
用 getFullId() 方 法 返回 的 值 作为 该 Map 的 键 。 


然后 ， 使 用 Collectors 类 的 of( ) 方 法 创建 一 个 新 的 收集 器 。 该 收 
集 器 将 接收 一 个 字符 串 Collection 作 为 输入 ， 使 

用 AtomicReference<Collection<String>> 接 口 作 为 中 间 数 据 
结构 ， 并 且 返 回 一 个 字符 串 Collection 作 为 返回 类 型 。 


Collector<Collection<String>, AtomicReference<Collection<String>>, 
Collection<String>> intersecting = Collector.of(() -> 
new AtomicReference<>(null), (acc, list) -> { 

(acc, list) -> { 

if (acc.get() == null) { 
acc.updateAndGet(value -> new ConcurrentLinkedQueue<>(list)); 

} else { 
acc.get().retainAll(list); 

} 

}, (acc1, acc2) -> { 

if (acc1.get() == null) return acc2; 

if (acc2.get() == null) 
return acc1; 

accl.get().retainAll(acc2.get()); 

return acc1; 

}, (acc) -> acc.get() == null ? Collections.emptySet() : 

acc.get(), Collector.Characteristics.CONCURRENT, 
Collector.Characteristics.UNORDERED) ; 





of () 方 法 Wo TS Be Supplier ci žr 5 需要 创建 一 个 中 间 数 据 结 
构 时 ， 总 是 要 调用 该 Supplier。 在 串 行 流 中 ， 该 方法 仅 被 调用 一 
次 ， 但 是 在 并 发 流 中 ， 每 个 线程 都 会 调用 该 方法 。 


() -> new AtomicReference<>(null), 


在 我 们 的 例子 中 ， 会 直接 创建 一 个 新 的 AtomicReference 来 存 
放 Collection<String> 对 象 。 


of() 方 法 的 第 二 个 参数 是 Accumulator 函 数 。 该 函数 接收 中 间 数 据 
结构 和 一 个 输入 值 作为 参数 。 


(acc, list) -> { 
if (acc.get() == null) { 
acc.updateAndGet(value -> new ConcurrentLinkedQueue<>(list)); 


} else { 
acc.get().retainAll(list); 





在 我 们 的 例子 中 ，acc 参 数 是 AtomicReference， 而 1ist 参 数 

是 ConcurrentLinkedDeque。 如 果 acc 参 数 存储 的 是 空 值 ， 那 么 使 
用 AtomicReference 的 updateAndGet() 方 法 。 该 方法 更 新 当前 值 
并 且 返 回 新 值 。 如 果 AtomicReference 为 nul1， 本 例 创 建 一 个 含 
有 该 列表 元 素 的 新 ConcurrentLinkedDeque。 如 果 
AtomicReference 不 为 空 ， 那 么 使 用 retainAl1( ) 方 法 添加 该 列 
表 的 所 有 元 素 。 


of() 方 法 的 第 三 个 参数 是 Combiner 疯 数 。 该 函数 只 在 并 行 流 中 调 
7 它 接收 两 个 中 间 数 据 结 构 作 为 参数 ， 并 且 仅 生成 一 个 数据 结 





(acc1, acc2) -> { 
if (accl.get() == null) 
return acc2; 
if (acc2.get() == null) 


return acci1; 
accl.get().retainAll(acc2.get()); 
return acci; 


3 


在 我 们 的 例子 中 ， 如 果 其 中 一 个 参数 为 nul1， 则 返回 另 一 个 数据 结 
构 。 和 否则 ， 使 用 acc1 参 数 的 retainAl1() 方 法 并 且 返 回 结果 。 


of () 方 法 的 第 四 个 参数 是 Finisher 函 数 。 该 函数 将 最 后 的 中 间 数 据 
结构 转换 成 我 们 希望 返回 的 数据 结构 。 在 我 们 的 例子 中 ， 中 间 数 据 
结构 和 最 终 数据 结构 相同 ， 因 此 不 需要 转换 。 














(acc) -> acc.get() == null ? Collections.emptySet() : acc.get(), 


最 后 ， 使 用 最 后 一 个 参数 指明 该 收集 器 是 并 发 的 。 这 就 意味 着 ， 同 
一 个 结果 容 吉 可 以 从 多 个 不 同 线程 并 发 调用 该 Accumulator 函 数 ; 








ee 的 ， 这 就 意味 着 ， 该 操作 不 会 保留 元 系 的 原始 顺 
To 


定义 了 收集 器 后 ， 还 要 将 第 一 个 流 生成 的 Map 转 换 成 一 
个 PersonPair 对 象 列表 ， 其 中 含有 每 一 对 用 户 的 共同 联系 人 。 我 
们 采用 下 述 代码 : 








List<PersonPair> peopleCommonContacts = group 
.entrySet().parallelStream().map((entry) -> { 
Collection<String> commonContacts = entry 
.getValue().parallelStream().map(p -> p 
.getContacts()).collect(intersecting); 
PersonPair person = new PersonPair(); 
person.setId(entry.getKey().split(",")[@]); 


person.setOtherId(entry.getKey().split (",")[1]); 
person.setContacts(new ArrayList<String> (commonContacts)); 
return person; 

}).collect(Collectors.toList()); 


return peopleCommonContacts; 
} 
} 


使 用 entySet() 方 法 处 理 该 Map 的 所 有 元 素 。 创 建 
parallelStream( ) 方 法 来 处 理 所 有 的 Entry 对 象 ， 然 后 使 

用 map() 方 法 将 每 个 PersonPair 对 象 列表 转换 为 一 个 含有 共同 联 
系 人 的 唯一 PersonPair 对 象 。 


对 每 条 记录 来 说 ， 其 键 是 一 对 用 户 的 标识 符 〈 以 逗号 作为 分 陋 
符 ) ， 而 其 值 是 由 两 个 PersonPair 对 象 组 成 的 列表 。 第 一 
个 PersonPair 对 象 中 含有 一 个 用 户 的 联系 人 ， 而 另 一 

个 PersonPair 对 象 中 含有 男 一 个 用 户 的 联系 人 。 


我 们 为 该 列表 创建 一 个 流 来 生成 两 个 用 户 的 共同 联系 人 ， 其 中 含有 
如 下 元 素 。 


(1) 使 用 该 列表 的 parallelstream() 方 法 创建 该 流 。 


(2) 使 用 map( ) 方 法 来 将 每 个 PersonPair() 对 象 蔡 换 为 存放 在 该 对 
象 中 的 联系 人 列表 。 





(3) 最 后 ， 使 用 收集 器 生成 含有 共同 联系 人 的 


ConcurrentLinkedDeque. 


最 后 ， 创 建 一 个 新 的 PersonPair 对 象 ， 其 中 含有 两 个 用 户 的 标识 
符 及 其 共同 联系 人 列表 。 将 该 对 象 添加 到 结果 列表 。 该 Map 中 的 所 
有 元 素 处 理 完 毕 后 ， 可 以 返回 该 结果 列表 。 


03. ConcurrentMain2 


ConcurrentMain 类 实现 了 main() 方 法 ， 用 于 测试 算法 。 如 前 所 
述 ， 使 用 下 面 两 个 数据 集 测试 该 算法 。 


。 一 个 非常 简单 的 用 于 测试 该 算法 正确 性 的 数据 集 。 
e 其 于 Facebook 真 实数 据 的 数据 集 。 


该 类 的 源 代码 如 下 : 





public class ConcurrentMain { 


public static void main(String[] args) { 


Date start, end; 

System.out.println("Concurrent Main Bidirectional - Test"); 

List<Person> people=DataLoader.load("data","test.txt"); 

start=new Date(); 

List<PersonPair> peopleCommonContacts= ConcurrentSocialNetwork 

.bidirectionalCommonContacts (people); 

end=new Date(); 

peopleCommonContacts.forEach(p -> System.out.printin 
(p.getFullId()+": "+getContacts(p.getContacts()))); 

System.out.println("Execution Time: "+(end.getTime()- 

start.getTime())); 
System.out.println("Concurrent Main Bidirectional - 
Facebook") ; 

people=DataLoader.load("data", "facebook _contacts.txt"); 

start=new Date(); 

peopleCommonContacts= ConcurrentSocialNetwork 

.bidirectionalCommonContacts (people); 

end=new Date(); 

peopleCommonContacts.forEach(p -> System.out.printin 
(p.getFullId()+": "+getContacts(p.getContacts()))); 

System.out.println( "Execution Time: "+(end.getTime()- 

start.getTime())); 


} 


private static String formatContacts(List<String> contacts) { 
StringBuffer buffer=new StringBuffer (); 
for (String contact: contacts) { 
buffer.append(contact+","); 


} 
return buffer.toString(); 
} 





9.4.3 ThA 
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并 发 版 做 如 下 更 改 。 


用 stream( ) 方 法 蔡 换 parallelStream( ) 方 法 。 

用 ArrayList 数 据 结构 替换 ConcurrentLinkedDeque 数 据 结 构 。 
用 groupingBy() 方 法 蔡 换 groupingByConcurrent() 方 法 。 
不 使 用 of () 方 法 中 最 后 的 参数 。 


9.4.4 ”对 比 两 个 版 本 


我 们 采用 JMH 框 架 执 行 这 些 示 例 ， 访 框架 允许 在 Java 中 实现 微型 基准 测 
试 。 使 用 面向 基准 测试 的 框架 是 比较 好 的 解决 方案 ， 它 直接 

用 currentTimeMil1lis() 方 法 或 者 nanoTime() 方 法 度量 时 间 。 在 两 种 
不 同 的 架构 上 分 别 执行 这 些 示例 10 次 。 


。 一 台 计 算 机 配置 了 Intel Core i5-5300 处 理 器 、Windows 7 操作 系统 和 
16GB 的 RAM。 访 处理 器 有 两 个 核 ， 且 每 个 核 可 以 执行 两 个 线程 ， 
这 样 就 有 四 个 并 行 线程 。 

e 另 一 台 计 算 机 配置 了 AMD A8-640 处 理 器 、Windows 10 操 作 系 统 和 
8GB 的 RAM。 该 处 理 器 有 四 个 核 。 


结果 如 下 (单位 : EH) 
| 


Intel 架 构 














E = 0.562 3193.83 


2.037 1778.239 
AMD 架 构 





可 以 得 出 如 下 结论 。 
。 对 于 示例 数据 集 ， 在 Intel 架 构 上 串 行 版 的 执行 时 间 结 果 更 好 ， 而 在 














AMD 架 构 上 也 有 类 似 表 现 。 原 因 在 于 示例 数据 集中 的 元 素 比较 
“对 于 Facebook 数 据 集 ， 关 发 上 在 丙种 架构 上 的 执行 时 间 结果 均 更 
A 


4b Xt Facebook ati R CRF ACMA EB TI, MRE AER. 


ee — T serial = seit — 260 
了 concurrent 34 17.576 

Sintel = ai 二 一 = 1.80 
T concurrent 1778.239 








9.5 小结 


本 章 使 用 Stream 框架 提供 的 多 个 版 本 的 collect () 方 法 对 流 的 元 素 进 
行 转 换 和 分 组 。 本 章 和 第 8 章 介绍 了 如 何 使 用 完整 的 流 APL。 


基本 上 ，collect() 方 法 需要 一 个 收集 器 来 处 理 流 的 数据 并 且 生 成 一 个 
数据 结构 ， 该 数据 结构 则 由 形成 该 流 的 一 个 聚合 操作 集 返 回 。 一 个 收集 
器 可 以 处 理 三 种 不 同 的 数据 结构 ， 包 括 输入 元 素 的 数据 结构 、 处 理 输入 
元 素 时 使 用 的 中 间 数 据 结构 ， 以 及 返回 的 最 终 数 据 结 构 。 


本 章 使 用 了 collect() 方 法 的 不 同 版 本 实现 了 一 个 搜索 工具 〈 它 必须 在 
不 采用 倒 排 索引 的 前 提 下 在 文件 集合 中 查找 查询 中 的 日 词 ) 、 一 个 推荐 
ae 以 及 一 个 用 于 在 社交 网 络 中 计算 两 个 用 户 之 间 共 同 联系 人 的 工 


ARA 


下 一 章 将 深入 研究 反应 流 编 程 ， 这 是 Java 9 中 引入 的 一 种 新 特性 。 














第 10 章 ”异步 流 处 理 : Rint 


反应 流 为 带 有 非 阻塞 回 压 (back pressure) 的 异步 流 处 理 定 义 了 标准 。 
这 类 系统 最 大 的 问题 是 资源 消耗 。 快 速 的 生产 者 会 使 较 慢 的 消费 者 超 负 
向。 这 些 组 件 之 则 的 数据 队列 规模 可 能 过 上 度 增加 ， 从 而 影响 整个 系统 的 
We Ee 费 考 之 间 进 行 协 调 的 队列 含有 限定 
AH HIIR o 


反应 流 定义 了 描述 必要 操作 和 实体 所 需 的 接口 、 方 法 和 协议 的 最 小 集 
Be EMETWFETER 


。 信息 的 发 布 者 。 
。 一 个 或 多 个 信息 订阅 者 。 
。 及 布 者 和 消费 者 之 间 的 订阅 关系 。 


反应 流 规范 根据 以 下 规则 明确 了 这 些 类 应 该 如 何 交 互 。 


。 发 布 者 将 添加 那些 希望 得 到 通知 的 订阅 者 。 

。 订 阅 者 被 发 布 者 添加 时 会 收 到 通知 。 

。 订 阅 者 以 异步 方式 请 求 来 自发 布 者 的 一 个 或 多 个 元 素 ， 也 就 是 说 ， 
订阅 者 请 求 元 素 并 继续 其 执行 。 

“发布 者 有 一 个 要 发 布 的 元 素 时 ， 会 将 其 发 送 给 请 求 元 素 的 所 有 订 克 




















ee 所 有 这 些 通 信 都 是 异步 的 ， 因 此 可 以 充分 利用 多 核 处 理 圳 的 
部 性 能 。 


Java 9 包含 了 三 个 接口 ， 即 Flow.Publisher、Flow.Subscriber 和 
Flow.Subscription， 以 及 一 个 实用 工具 类 ，SubmissionPublisher 
类 。 它 们 可 支持 实现 反应 流 应 用 程序 。 本 章 将 介绍 如 何 使 用 这 些 元 素 实 
现 基本 的 反应 流 应 用 程序 。 


在 本 章 中 ， 你 将 通过 以 下 主题 学 习 如 何 使 用 反应 流 。 


© Java 反 应 流 简 介 。 


。 第 一 个 例子 : 面 癌 事件 通知 的 集中 式 系统 。 


。 第 二 个 例子 : 新 闻 系 统 。 


10.1 Java 反应 流 简 介 


本 章 开 头 介绍 了 反应 流 的 定义 、 标 准 构成 元 素 以 及 这 些 元 素 在 Java 中 的 
实现 方式 。 





。Flow.Publisher 接 口 : 该 接口 描述 了 条 目的 生产 者 。 

e Flow.Subscriber 接 口 : 该 接口 描述 了 条 目的 使 用 者 〈 即 消费 
者 ) 。 

e Flow.Subscription 接 口 : 该 接口 描述 了 生产 者 与 消费 者 之 间 的 
连接 。 实 现 该 接口 的 类 可 以 管理 生产 者 和 消费 者 之 间 的 条 目 交 换 。 


除了 这 三 个 接口 之 外 ， 还 有 实现 Flow.Pub1lisher 接 口 的 
SubmissionPub1isher 类 。 该 类 还 用 到 了 Flow.Subscription 接 口 的 
一 个 实现 。 该 类 实现 了 Flow.Publisher 接 口 的 方法 ， 进 而 可 以 支持 消 
费 者 订阅 ， 也 可 以 将 条 目 发 送 给 这 些 消 费 者 ， 因 此 我 们 只 需要 实现 一 个 
或 多 个 实现 Flow.Subscriber 接 口 的 类 。 


下 面 详细 了 解 一 下 这 些 类 和 接口 所 提供 的 方法 。 











10.1.1 Flow.Publisher 接 口 
如 前 所 述 ， 该 接口 描述 了 条 目的 生产 者 。 它 只 提供 一 个 方法 。 
。 subscribe(): 该 方法 接收 Flow.Subscriber 接 口 的 一 个 实现 作 

为 参数 ， 并 且 将 该 订阅 者 添加 到 其 内 部 订阅 者 列表 。 该 方法 并 不 返 
回 任何 结果 。 从 内 部 来 看 ， 它 使 用 Flow.Subscriber 接 口 提供 的 
方法 向 订阅 者 发 送 条 目 、 错 误 信 息 和 订阅 对 象 。 

10.1.2 Flow.Subscriber 接 口 

如 前 所 述 ， 该 接口 描述 了 条 目的 消费 者 。 它 提供 了 下 述 四 个 方法 。 


e onSubscribe(): 该 方法 由 发 布 者 调用 ， 用 于 完成 订阅 者 的 订阅 过 
程 。 它 向 订阅 者 发 送 了 Flow.Subscription 对 象 ， 该 对 象 管理 发 
布 者 和 订阅 者 之 间 的 通信 。 

e onNext(): 当 发 布 者 想 把 新 条 目 发 送 给 订阅 者 时 ， 会 调用 该 方 


法 。 在 该 方法 中 ， 订 阅 者 必须 处 理 该 条 目 。 该 方法 并 不 返回 任何 结 
果 。 

e onError(): 如 果 出 现 了 一 个 不 可 恢复 的 错误 ， 而 且 没 有 调用 其 他 
的 订阅 者 方法 ， 那 么 发 布 者 将 调用 该 方法 。 访 方法 接收 Throwab1le 
对 象 作 为 参数 ， 其 中 含有 已 发 生 的 错误 。 

e onComplete(): 不 再 发 送 任何 条 目 时 ， 发 布 者 将 调用 该 方法 。 该 
方法 没有 参数 ， 也 不 返回 结 


10.1.3 Flow.Subscription 接 口 


如 前 所 述 ， 该 对 象 描述 了 发 布 者 与 订阅 者 之 间 的 通信 。 它 提供 了 两 个 方 
法 ， 订 阅 者 可 以 通过 这 些 方法 告诉 发 布 者 它们 的 通信 将 如 何 进行 。 


e cancel(): 订阅 者 调用 该 方法 告诉 发 布 者 它 不 再 需要 任何 条 目 
上 


。request(): 订阅 者 调用 该 方法 来 告诉 发 布 者 它 需要 更 多 的 条 目 。 
它 将 订阅 着 想 要 的 条 目 数 作为 参数 。 





10.1.4 SubmissionPublisher 类 


如 前 所 述 ， 这 个 类 由 Java 9 API 提 供 ， 实 现 了 Flow.Publisher 接 口 。 它 
还 使 用 Flow.Subscription 接 口 ， 并 且 提 供 向 消费 者 发 送 条 目的 方 
法 ， 这 些 方法 用 于 了 解 消费 者 数量 、 发 布 者 和 消费 者 之 间 的 订阅 关系 ， 
以 及 关闭 它们 之 间 的 通信 。 下 面 给 出 了 该 类 比较 重要 的 方法 。 


e subscribe(): 该 方法 由 Flow.PUublisher 接 口 提供 ， 用 于 同 发 布 
者 订阅 一 个 Flow.Subscriber 对 象 。 

e offer(): 该 方法 以 异步 方式 调用 其 onNext() 方 法 ， 回 每 个 订阅 
者 发 布 一 个 条 目 。 

e submit(): 该 方法 以 异步 方式 调用 其 onNext() 方 法 ， 回 每 个 订 疯 
者 发 布 一 个 条 目 。 资 源 对 任何 订阅 者 都 不 可 用 时 ， 进 行 不 间断 阻 
塞 。 


e estimateMaximumLag(): 该 方法 对 发 布 者 已 生成 但 尚未 被 已 订阅 
的 订阅 者 使 用 的 条 目 进 行 估 计 。 

e estimateMinimumDemand(): 该 方法 对 消费 者 已 请 求 但 是 发 布 者 
尚未 生成 的 条 目 数 进行 估计 。 

e getMaxBufferCapacity(): 该 方法 返回 每 个 订阅 者 的 最 大 绥 冲 

















区 。 

getNumberOfSubscribers(): 该 方法 返回 订阅 者 的 数量 。 
hasSubscribers(): 该 方法 返回 一 个 布尔 值 ， 该 值 用 于 指示 发 布 
者 是 否 有 订阅 者 。 l 

close(): 该 方法 调用 当前 发 布 者 的 所 有 订阅 者 的 onComplete( ) 
Viti 

isClosed(): 该 方法 返回 一 个 布尔 值 ， 用 于 指示 当前 发 布 者 是 否 
CR. 








10.2 第 一 个 例子 : 面 同 事件 通知 的 集中 式 系 统 


该 示例 将 实现 一 个 系统 ， 把 来 自 事 件 生 成 器 的 条 目 发 送 给 事件 的 消费 
者 。 我 们 将 使 用 submissionPublisher 类 实现 事件 的 生产 者 和 消费 者 
之 间 的 通信 。 





10.2.1 Event% 

该 类 存储 了 每 个 条 目的 信息 。 每 个 条 目 包 含 了 三 个 属性 。 
。msg 属 性 ， 用 于 在 Event 对 象 中 存储 消息 。 
e source 属 性 ， 用 于 存储 生成 Event 对 象 的 类 的 名 称 。 
。date 属 性 ， 用 于 存储 Event 生 成 的 日 期 。 


必须 将 这 三 个 属性 声明 为 private， 并 且 在 该 类 中 包含 相应 的 get() 方 法 
和 set() 方 法 。 





10.2.2 Producer% 


我 们 将 使 用 该 类 实现 生成 事件 的 任务 ， emo 
SubmissionPublisher 对 象 发 送 给 消费 者 。 该 类 实现 了 Runnab1le 接 
口 ， 并 且 存 储 了 两 个 属性 。 


。 publisher 属 性 : 该 属性 存储 SubmissionPublisher 对 象 ， 将 事 
件 发 送 给 消费 者 。 
。name 属 性 : 该 属性 存储 了 生产 者 的 名 称 。 


使 用 该 类 的 构造 函数 初始 化 这 两 个 属性 。 





public class Producer implements Runnable { 


private SubmissionPublisher<Event> publisher; 
private String name; 


public Producer(SubmissionPublisher<Event> publisher, String name) { 
this.publisher = publisher; 
this.name = name; 


} 








然后 ， 实 现 run() 方 法 。 在 该 方法 中 ， 生 成 10 个 事件 。 在 一 个 事件 和 下 
ooN 随机 等 待 一 个 随机 秒 数 〈0 到 10 之 间 ) 。 该 方法 的 源 代码 
WF: 


@Override 
public void run() { 


Random random = new Random(); 

for (int i=0 ; i < 10; i++) { 
Event event = new Event(); 
event.setMsg("Event number "+i); 
event.setSource(this.name) ; 
event.setDate(new Date()); 


publisher. submit(event) ; 


int number = random.nextInt(1@) ; 


try { 
TimeUnit .SECONDS.sleep(number) ; 
} catch (InterruptedException e) { 
e.printStackTrace(); 





10.2.3 Consumer% 


现在 ， 在 Consumer 类 中 实现 事件 的 消费 者 。 这 个 类 实现 了 采用 Event 类 
参数 化 的 Flow.Subscriber 接 口 ， 因 此 必须 实现 该 接口 提供 的 四 种 方 
法 。 
首先 ， 声 明 两 个 属性 。 
。name 属 性 ， 用 于 存储 消费 者 的 名 称 。 
。 subscription 属 性 ， 用 于 存储 Flow.Subscription 实 例 ， 该 实例 
负责 管理 消费 者 与 生产 者 之 间 的 通信 。 


使 用 该 类 的 构造 函数 初始 化 name 属 性 ， 如 以 下 代码 片段 所 示 : 








public class Consumer implements Subscriber<Event> { 


private String name; 
private Subscription subscription; 


public Consumer (String name) { 
this.name = name; 


} 





现在 ， 实 现 Flow.Subscriber 接 口 的 四 种 方法 。onComplete() 方 法 和 
onError() 方 法 只 将 信息 显示 到 控制 台 。 


@Override 
public void onComplete() { 
this.showMessage("No more events"); 


@Override 

public void onError(Throwable error) { 
this.showMessage("An error has ocurred"); 
error.printStackTrace(); 


} 





当 消 费 者 希望 订阅 其 通知 时 ，SubmissionPublisher 类 将 调 

用 onSsubscribe() 方 法 ， 作 为 参数 传递 的 Subscription 对 象 将 存放 
在 subscription 属 性 中 ， 然 后 我 们 使 用 request() 方 法 同 发 布 者 请 求 
第 一 条 消息 。 最 后 ， 在 控制 台 输 出 消息 。 








@Override 

public void onSubscribe(Subscription subscription) { 
this.subscription=subscription; 
this.subscription.request(1); 
this.showMessage("Subscription OK"); 


} 





最 后 ， 对 于 每 个 事件 ，SubmissionPublisher 类 都 将 调用 onNext() 方 
法 。 我 们 在 控制 台中 显示 该 事件 的 信息 ， 使 用 request() 方 法 请 求 下 一 
个 事件 ， 并 且 调 用 辅助 方法 proccesEvent()。 








@Override 
public void onNext(Event event) { 
this.showMessage("An event has arrived: "+event.getSource()+": 


"+event.getDate()+": "+event.getMsg()); 
this.subscription.request(1); 


processEvent (event) ; 


} 





使 用 processEvent() 方 法 模拟 消费 者 处 理事 件 的 时 间 。 随 机 等 待 0 到 3 
秒 以 实现 这 一 行为 。 


private void processEvent(Event event) { 
Random random = new Random(); 


int number = random.nextInt(3); 


try { 
TimeUnit .SECONDS.sleep(number) ; 


} catch (InterruptedException e) { 
e.printStackTrace(); 
} 





最 后 ， 必 须 实 现 上 一 个 方法 中 使 用 的 辅助 方法 showMessage()。 它 显示 
ig ene epee a EA eens 
者 的 名 称 。 


private void showMessage (String txt) { 
System.out.println(Thread. currentThread().getName()+":"+this 


.name+":"+txt); 





10.2.4 Main% 


最 后 ， 实 现 Main 类 ， 其 中 含有 创建 并 运行 该 示例 所 有 组 件 的 main() 方 
TE 


创建 以 下 元 素 。 


e 一 个 名 为 publisher 的 SubmissionPub1isher 对 象 。 我 们 将 使 用 
该 对 象 将 事件 发 送 给 消费 者 。 


。 五 个 Consumer 对 象 ， 它 们 将 接收 发 布 者 创建 的 所 有 事件 。 我 们 使 
用 subscribe() 方 法 同 发 布 者 订阅 消费 者 。 


。 两 个 Producer 对 象 ， 它 们 将 生成 事件 ， 并 使 用 publisher 对 象 将 
事件 发 送 给 消费 者 。 我 们 使 用 JVM 提 供 的 默认 ForkJoinPool 对 象 
执行 生产 者 对 象 ， 并 使 用 commonPoo1( ) 方 法 获取 ForkJoinPool 对 
象 ， 并 且 使 用 submit() 方 法 执行 它们 。 





public class Main { 


public static void main(String[] args) { 


SubmissionPublisher<Event> publisher = new SubmissionPublisher(); 


for (int i = ð; i < 5; i++) { 
Consumer consumer = new Consumer("Consumer "+i); 
publisher.subscribe(consumer ) ; 


} 


Producer system1 
Producer system2 


= Producer(publisher, "System 1"); 
= Producer(publisher, "System 2"); 
ForkJoinTask<?>task1 = ForkJoinPool.commonPool().submit(system1) ; 
ForkJoinTask<?>task2 = ForkJoinPool.commonPool().submit(system2) ; 





然后 ， 给 出 一 个 while 循 环 ， 该 循环 每 10 秒 输出 有 关 任 务 和 发 布 者 对 象 
的 信息 ， 代 码 块 如 下 : 





do { 
System.out.println("Main: Task 1: "+task1.isDone()); 
System.out.println( "Main: Task 2: "+task2.isDone()); 


System.out.println( "Publisher: MaximunLag:"+ 
publisher.estimateMaximumLag() ); 

System.out.println("Publisher: Max Buffer Capacity: "+ 
publisher .getMaxBufferCapacity()); 


try { 
TimeUnit .SECONDS .sleep(16) ; 

} catch (InterruptedException e) { 
e.printStackTrace(); 


} 


} while ((!taskl.isDone()) || (!task2.isDone()) | | 


(publisher.estimateMaximumLag() > @)); 
为 了 完成 循环 的 执行 ， 要 等 待 三 个 条 件 。 


© 执行 第 一 个 生产 者 对 象 的 任务 完成 执行 。 

© 执行 第 二 个 生产 者 对 象 的 任务 完成 执行 。 

e SubmissionPublisher 对 象 中 再 没有 未 处 理事 件 。 使 
用 estimateMaximumLag() 方 法 获取 该 数值 。 


最 后 ， 使 用 SubmissionPublisher 对 象 的 close( ) 方 法 通知 订阅 者 执 
行 结束 。 


在 本 例 的 执行 过 程 中 ， 生 产 者 使 用 submit() 方 法 将 事件 发 送 给 
SubmissionpPub1lisher， 而 SubmissionPub1lisher 又 将 事件 发 送 给 不 
同 的 消费 者 。 每 个 消费 者 都 使 用 request() 方 法 逐个 请 求 事件 。 


下 面 的 屏幕 截图 显示 了 该 程序 执行 一 次 得 到 的 部 分 输出 。 


<terminated> Main [Java Application] C:\Program Files\Java\jdk-9\bin\javaw.exe (2 abr. 2017 23:27:31) 

ForkJoinPool.commonPool-worker-1:Consumer 4: An event has arrived: System 1: Sun Apr @2 23:27:49 CEST 2017: Event number 4 
ForkJoinPool.commonPool-worker-2:Consumer 3: An event has arrived: System 2: Sun Apr @2 23:27:53 CEST 2017: Event number 6 
Main: Task 1: true 

Main: Task 2: true 

Publisher: Maximunlag: 9 

Publisher: Max Buffer Capacity: 256 
ForkJoinPool .commonPool-worker-2:Consumer 
ForkJoinPool . commonPool -worker-1:Consumer 
ForkJoinPool.commonPool -worker-1:Consumer 
ForkJoinPool.commonPool -worker-2:Consumer 
ForkJoinPool .commonPool -worker-2:Consumer 
ForkJoinPool . commonPool -worker-1:Consumer 
ForkJoinPool .commonPool -worker-1:Consumer 
ForkJoinPool . commonPool-worker-1:Consumer 
ForkJoinPool.commonPool-worker-1:Consumer 
ForkJoinPool.commonPool-worker-2:Consumer 
ForkJoinPool. commonPool -worker-1:Consumer 
ForkJoinPool. commonPool -worker-2:Consumer 
ForkJoinPool . commonPool -worker-1:Consumer 
ForkJoinPool . commonPoo! -worker-1: Consumer 
ForkJoinPool . commonPool-worker-2:Consumer 
ForkJoinPool . commonPool-worker-2:Consumer 
ForkjJoinPool . commonPool-worker-1:Consumer 
ForkJoinPool . commonPool-worker-1:Consumer 
ForkJoinPool. commonPool -worker-1:Consumer 
ForkJoinPool.commonPool -worker-3:Consumer 





event has arrived: System 
event has arrived: System 
event has arrived: System 
event has arrived: System 
event has arrived: System 
event has arrived: System 
event has arrived: System 
event has arrived: System 
event has arrived: System 
event has arrived: System 
event has arrived: System 
event has arrived: System 
event has arrived: System 
event has arrived: System 
event has arrived: System 
event has arrived: System 
more events 

more events 

more events 

more events 


: Sun Apr @2 23:27:53 CEST 2617: Event number 
: Sun Apr @2 23:27:53 CEST 2017: Event number 
: Sun Apr @2 23:27:53 CEST 2017: Event number 
: Sun Apr @2 23:27:54 CEST 2017: Event number 
: Sun Apr @2 23:27:55 CEST 2017: Event number 
: Sun Apr 92 23:27:53 CEST 2017: Event number 
: Sun Apr @2 23:27:54 CEST 2617: Event number 
: Sun Apr @2 23:27:55 CEST 2617: Event number 
Sun Apr 02 23:27:57 CEST 2617: Event number 
Sun Apr 62 23:27:57 CEST 2017: Event number 
: Sun Apr @2 23:27:58 CEST 2017: Event number 
Sun Apr @2 23:27:58 CEST 2017: Event number 
: Sun Apr @2 23:27:59 CEST 2017: Event number 
: Sun Apr 92 23:27:59 CEST 2017: Event number 
: Sun Apr 02 23:27:59 CEST 2017: Event number 
: Sun Apr 62 23:27:59 CEST 2617: Event number 


eee ee Re he 
ODWOONNOOMANanaws 


al clin tng A teh de a fet dr eth enh ay 
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可 以 看 到 main() 方 法 如 何 输出 有 关 任 务 和 pub1isher 对 象 的 信息 ， 用 
户 如 何 接收 不 同 的 事件 ， 以 及 最 后 main( ) 方 法 调 

用 submissionPublisher 对 象 的 close( ) 方 法 时 ， 如 何 输出 由 其 调用 
的 onComplete() 方 法 所 输出 的 消息 。 


103 第 二 个 例子 : 新 闻 系 统 


前 面 的 例子 使 用 了 SubmissionPublisher 类 ， 因 此 没有 实现 
Flow.Publisher 接 口 和 Flow.Subscription 接 口 。 如 果 
SubmissionPublisher 提 供 的 功能 不 符合 需求 ， 那 么 必须 实现 自己 的 
发 布 者 和 订阅 关系 。 


本 节 ， 你 将 学 习 如 何 实现 这 两 个 接口 ， 进 而 理解 反应 流 的 规范 。 本 节 将 
实现 一 个 新 闻 系 统 ， 其 中 每 则 新 闻 将 与 一 个 类 别 相 关联 。 订 阅 者 将 订阅 
一 个 或 多 个 类 别 ， 而 发 布 者 只 会 癌 每 个 订阅 相应 类 别 的 订阅 者 发 送 新 
闻 。 





10.3.1 News 类 


要 实现 的 第 一 个 类 是 News 类 。 该 类 描述 了 要 从 发 布 者 发 送 给 消费 者 的 每 
则 新 闻 。 我 们 将 存储 三 个 属性 。 


e category 必 性 : 一 个 存储 新 闻 类 别 的 int 值 。 它 可 以 采用 数值 0、 
1、2 和 3 分 别 表示 体育 、 世 界 、 经 讲 和 科学 类 别 的 新 闻 。 

。 txt 届 性: 存储 新 闻 文 本 的 String 值 。 

e date 属 性 : 存储 新 闻 日 期 的 Date 值 。 


和 往常 一 样 ， 仍 然 要 将 这 些 属性 声明 为 private， 并 且 实 现 相 应 的 get() 
方法 和 set() 方 法 获取 和 设置 这 些 属性 值 。 


10.3.2 ”发 布 者 相关 的 类 


我 们 需要 四 个 类 来 实现 Flow .Publisher 接 口 和 Flow.Subscription 接 
口 。 第 一 个 是 实现 了 Flow.Subscription 接 口 的 MySubscription 类 。 
我 们 将 在 该 类 中 保存 三 个 属性 。 


canceled 属 性 : 用 于 指示 订阅 是 否 被 取消 的 布尔 值 。 
requested 属 性 : 用 于 存储 消费 者 所 请 求 的 新 闻 条 数 的 
AtomicLong 值 。 

categories 属 性 : 用 于 存储 与 当前 订阅 相关 联 的 新 闻 类 别 的 一 组 
整 型 值 。 











下 面 的 代码 展示 了 对 上 述 属性 的 声明 。 


public class MySubscription implements Subscription { 
private boolean cancelled = false; 


private AtomicLong requested = new AtomicLong(@); 
private Set<Integer> categories; 





然后 ， 还 要 实现 Flow.Subscription 接 口 所 提供 的 两 个 方 
YE: cancel() 方 法 和 request() 方 法 。 


@Override 
public void cancel() { 
cancelled=true; 


} 


@Override 

public void request(long value) { 
requested. addAndGet (value); 

} 





cancel() 方 法 只 是 将 cancelled 属 性 设置 为 trrue， 而 request() 方 法 
则 会 增加 requested 属 性 的 值 。 在 实际 例子 中 ， 可 能 还 要 对 那些 作为 参 
数 传递 给 这 些 方 法 的 值 进行 验证 。 


然后 ， 我 们 还 实现 了 其 他 方法 来 获取 和 设置 该 类 的 各 属性 值 。 


e isCancelled(): 该 方法 返回 cancelled 属 性 的 值 。 
e getRequested(): 该 方法 使 用 get() 方 法 返回 requested 属 性 的 
值 。 


e decreaseRequested(): 该 方法 使 用 decrementAndGet() 方 法 减 
少 requested 属 性 的 值 。 

e setCategories(): 该 方法 设 定 categories 属 性 的 值 。 

e hasCategory(): 该 方法 返回 布尔 值 ， 指 明 参 数 中 的 类 别 (一 
个 int 值 ) 是 否 与 当前 订阅 相关 联 。 


然后 实现 ConsumerData 类 。 我 们 将 使 用 该 类 存储 订阅 者 的 信息 ， 以 及 
发 布 者 和 订阅 者 之 间 的 订阅 关系 。 因 此 ， 该 类 有 如 下 两 个 属性 。 


e consumer 属 性: 使 用 News 类 参数 化 的 Subscriber 值 。 它 将 存储 新 
闻 消 费 者 的 关联 关系 。 








e subscription 属 性 : 与 发 布 者 和 订阅 者 之 间 的 订阅 关系 相关 的 
MySubscription 值 。 


我 们 还 给 出 了 获取 和 设置 这 两 个 属性 值 的 get() 方 法 和 set() 方 法 。 


然后 ， 还 要 实现 PublisherTask 类 ， 该 类 实现 了 Runnable 接 口 。 我 们 
将 使 用 这 样 的 任务 回 消 费 者 发 送 条 目 。 我 们 声明 了 两 个 属性 来 存储 与 消 
费 者 相关 的 数据 、 消 费 者 和 发 布 者 之 间 的 订阅 关系 ， 以 及 想 要 发 送 的 条 
目 《 在 我 们 的 例子 中 是 一 则 新 闻 ) 。 


。 consumerData 属 性 : 如 前 所 述 ，consumerData 对 象 分 别 存 储 了 
Subscriber 对 象 和 MySubscription 对 象 。 前 者 含有 各 条 目的 消费 
者 ， Be ee 

e news 必 性: 含有 想 要 发 送 给 订阅 者 的 新 闻 的 News 对 象 。 


使 用 该 类 的 构造 函数 初始 化 这 两 个 属性 。 




















public class PublisherTask implements Runnable { 


private ConsumerDataconsumerData; 
private News news; 


public PublisherTask(ConsumerDataconsumerData, News news) { 
this.consumerData = consumerData; 
this.news = news; 


} 








然后 ， 实 现 run( ) 方 法 。 该 方法 将 检查 是 否 必须 将 News 对 象 发 送 给 订阅 
者 。 它 将 检查 以 下 三 个 条 件 。 


。 订阅 没有 取消 : 使 用 subscription 对 象 的 isCancelled() 方 法 。 
。 订 阅 者 请 求 了 更 多 的 条 目 : 使 用 subscription 对 象 的 
getRequested() 方 法 。 
e。News 对 象 的 类 别 存在 于 与 该 订阅 者 关联 的 类 别 集 中 : 使 
用 subscription 对 象 的 hasCategory() 方 法 。 


pee n 那么 使 用 onNext() 方 法 将 其 发 送 
给 订阅 者 。 我 们 还 使 用 了 subscription 对 象 的 decreaseRequested() 
方法 来 减少 该 订阅 者 请 求 的 条 目 数 。 该 方法 的 源 代码 如 下 : 








@Override 
public void run() { 
MySubscription subscription = consumerData. getSubscription() ; 
if (!(subscription.isCanceled()) && (subscription.getRequested() > @) 
&& (subscription.hasCategory(news.getCategory()))) { 
consumerData.getConsumer() .onNext(news) ; 
subscription. decreaseRequested() ; 
} 
} 





最 后 实现 MyPublisher 类 。 该 类 实现 了 采用 News 类 参数 化 的 
Flow.Publisher 接 口 。 我 们 将 使 用 两 个 属性 来 实现 该 类 的 行为 。 


e consumers 属 性 ， 一 个 使 用 ConsumerData 类 参数 化 的 
ConcurrentLinkedDeque 对 象 ， 用 于 存储 该 发 布 者 的 所 有 订阅 者 
的 信息 。 

e executor 属 性 : 一 个 用 于 执行 PublisherTask 对 象 的 
ThreadPoolExecutor 对 象 。 


使 用 该 类 的 构造 函数 初始 化 这 两 个 属性 。 








public class MyPublisher implements Publisher<News> { 


private ConcurrentLinkedDeque<ConsumerData> consumers; 
private ThreadPoolExecutor executor; 


public MyPublisher() { 
consumers=new ConcurrentLinkedDeque<>(); 
executor = (ThreadPoolExecutor)Executors.newFixedThreadPool 
(Runtime. getRuntime().availableProcessors()); 





然后 ， 实 现 Flow.Publisher 接 口 提供 的 subscribe() 方 法 。 该 方法 接 
收 想 要 订阅 该 发 布 者 的 Subscriber 对 象 作为 参数 。 创 建 一 个 新 的 
MySubscription 对 象 、 一 个 新 的 ConsumerData 对 象 〈《 添 加 到 消费 者 
的 数据 结构 ) ， 并 且 调 用 subscriber 对 象 的 onSubscribe() 方 法 (其 
参数 为 MySubscription 对 象 ) 。 





@Override 
public void subscribe(Subscriber<? super News> subscriber) { 


ConsumerDataconsumerData=new ConsumerData() ; 


consumerData.setConsumer((Subscriber<News>)subscriber) ; 


MySubscription subscription=new MySubscription() ; 
consumerData.setSubscription(subscription) ; 


subscriber.onSubscribe(subscription) ; 


consumers.add(consumerData) ; 





然后 ， 实 现 publish() 方 法 。 该 方法 接收 一 个 News 对 象 作为 参数 ， 并 党 
试 将 其 发 送 给 该 肥 布 者 的 所 有 订阅 者 。 处 理 存储 在 Consumers 数 据 结构 
中 的 所 有 元 素 ， 创 建 一 个 新 的 PublisherTask 对 象 ， 并 使 用 execute() 
方法 在 执行 器 中 执行 它们 。 


如 末 友 生 错 误 ， 将 对 subscriber 对 象 使 用 onError() 方 法 ， 以 便 将 错 
误 通 知 给 订阅 者 。 


public void publish(News news) { 
consumers.forEach( consumerData -> { 
try { 
executor.execute(new PublisherTask(consumerData, news)); 
} catch (Exception e) { 
consumerData. getConsumer().onError(e) ; 
} 
}); 
} 








最 后 ， 实 现 shutdown() 方 法 。 该 方法 将 通知 所 有 订阅 者 通信 结束 ， 并 
且 完 成 内 部 ThreadPoolExecutor 的 执行 。 


public void shutdown() { 
consumers .forEach( consumerData -> { 
consumerData. getConsumer().onComplete() ; 


})3 


executor. shutdown(); 
} 
} 





在 这 四 个 关中， 我 们 实现 了 该 示例 的 及 布 者 部 分 。 接 下 来 介绍 消费 者 部 
分 的 实现 。 


10.3.3 Consumer% 





该 类 实现 了 Flow.Subscriber 接 口 ， 并 且 实 现 了 新 闻 的 消费 者 。 在 内 
部 ， 它 使 用 了 三 个 属性 。 


e subscription 属 性 : 一 个 MySubscription 对 象 ， 它 存储 了 订阅 
者 和 发 布 者 之 间 的 订阅 关系 。 

。name 属 性 ， 一 个 存储 订阅 者 名 称 的 String 属 性 。 

e categories 属 性 : 一 个 整 型 数值 集合 ， 存 储 了 该 订阅 者 想 要 接收 
的 消息 的 类 别 。 


和 此 前 一 样 ， 使 用 该 类 的 构造 函数 初始 化 这 些 属性 。 





public class Consumer implements Subscriber<News> { 


private MySubscription subscription; 
private String name; 
private Set<Integer> categories; 


public Consumer(String name, Set<Integer> categories) { 
this.name=name; 
this.categories = categories; 


} 








现在 ， 要 实现 Flow.Subscriber 接 口 提供 的 方法 了 。onComplete() 方 
法 和 onError() 方 法 仅 在 控制 台 输出 信息 。 





@Override 
public void onComplete() { 
System.out.printf("%s - %s: Consumer - Completed\n", name, 
Thread. currentThread().getName()); 
} 


@Override 
public void onError(Throwable exception) { 
System.out.printf("%s - %s: Consumer - Error: %s\n", name, 
Thread.currentThread().getName(), 
exception.getMessage()); 





onSubscribe() 方 法 接收 subscription 对 象 作为 参数 ， 
在 subscription 属 性 中 存储 该 对 象 ， 并 使 用 与 此 订阅 者 相关 联 的 类 别 


更 新 该 属性 。 最 后 ， 使 用 request() 方 法 请 求 第 一 个 News 对 象 。 


@Override 

public void onSubscribe(Subscription subscription) { 
this.subscription = (MySubscription) subscription; 
this.subscription.setCategories(this.categories) ; 


this.subscription.request(1); 
System.out.printf("%s: Consumer - Subscription\n", 
Thread. currentThread().getName()); 





最 后 实现 onNext() 方 法 ， 该 方法 接收 一 个 News 对 象 作 为 参数 ， 在 控制 
台 输 出 该 对 象 的 信息 ， 并 且 使 用 request() 方 法 请 求 下 一 个 对 象 。 


@Override 
public void onNext(News item) { 
System.out.printf("%s - %s: Consumer - News\n", name, 
Thread. currentThread().getName()); 
System.out.printf("%s - %s: Text: %s\n", name, 
Thread. currentThread().getName(),item.getTxt()); 


System.out.printf("%s - %s: Category: %s\n", name, 

Thread. currentThread().getName(), 

item. getCategory()); 
System.out.printf("%s - %s: Date: %s\n", name, 

Thread. currentThread().getName(),item.getDate()); 
subscription.request(1); 


} 





10.3.4 Main% 
最 后 ， 使 用 main() 方 法 实现 Main 类 ， 测 试 在 该 示例 中 实现 的 所 有 类 。 
创建 一 个 MyPublisher 对 象 和 三 个 Consumer 对 象 ， 如 下 所 示 。 

e consumer1 对 象 只 接收 运动 方面 的 新 闻 。 

e consumer2 对 象 只 接收 关于 科学 的 新 闻 。 

e consumer3 对 象 只 接收 四 种 类 别 的 新 闻 。 


创建 这 些 对 象 并 且 将 它们 订阅 到 发 布 者 。 


public class Main { 


public static void main(String[] args) { 
MyPublisher publisher=new MyPublisher(); 
Subscriber<News>consumer1, consumer2, consumer3; 


Set<Integer> sports = new HashSet(); 
sports.add(News.SPORTS) ; 
consumeri=new Consumer("Sport Consumer", sports) ; 


Set<Integer> science = new HashSet(); 
science.add(News.SCIENCE) ; 
consumer2=new Consumer("Science Consumer", science); 


Set<Integer> all = new HashSet(); 
all.add(News. ECONOMIC) ; 
all.add(News.SCIENCE) ; 

all.add(News.SPORTS) ; 

all.add(News.WORLD) ; 

consumer3=new Consumer("All Consumer", all); 


publisher. subscribe(consumer 1) ; 
publisher. subscribe(consumer2) ; 
publisher. subscribe(consumer3) ; 


System.out.printf("Main: Start\n"); 





然后 ， 使 用 publisher 对 和 象 将 四 则 新 闻 每 个 类 别 各 一 条 〉 发 送 给 消费 
者 。 每 则 新 闻 之 间 间 隔 1 秒 钟 。 








News news=new News(); 
news.setTxt("Basketball news"); 
news .setCategory(News.SPORTS); 
news.setDate(new Date()); 


publisher. publish(news) ; 


try { 
TimeUnit .SECONDS.sleep(1) ; 


} catch (InterruptedException e) { 
e.printStackTrace(); 
} 


news=new News(); 
news.setTxt("Money news"); 
news . setCategory (News . ECONOMIC) ; 


news.setDate(new Date()); 
publisher. publish(news) ; 


try { 
TimeUnit .SECONDS.sleep(1) ; 


} catch (InterruptedException e) { 
e.printStackTrace(); 
} 


news=new News(); 
news.setTxt("Europe news"); 
news . setCategory (News .NORLD ; 
news.setDate(new Date()); 
publisher. publish(news) ; 


try { 
TimeUnit .SECONDS.sleep(1) ; 


} catch (InterruptedException e) { 
e.printStackTrace(); 
} 


news=new News(); 
news.setTxt("Space news"); 

news .setCategory (News.SCIENCE) ; 
news.setDate(new Date()); 
publisher. publish(news) ; 


publisher. shutdown(); 
System.out.printf("Main: End\n"); 


} 
} 


下 面 的 屏幕 截图 显示 了 本 例 执行 时 的 一 部 分 输出 结果 。 可 以 看 
到 consumer3 对 象 接收 了 所 有 新 闻 ， 但 是 consumer1 和 consumer2 对 象 
只 接收 相关 类 别 的 新 闻 。 








<terminated> Main [Java Application] C:\Program Files\Java\jdk-9\bin\javaw.exe (4 abr. 2017 0:44: 
All Consumer - pool-i-thread-3: Category: @ 

Sport Consumer - pool-1-thread-1: Category: @ 

Sport Consumer - pool-1-thread-1: Date: Tue Apr 04 00:44:25 CEST 2017 
All Consumer - pool-1-thread-3: Date: Tue Apr 04 00:44:25 CEST 2017 
All Consumer - pool-1-thread-4: Consumer - News 

All Consumer - pool-1-thread-4: Text: Money news 

All Consumer - pool-1-thread-4: Category: 2 

All Consumer - pool-1-thread-4: Date: Tue Apr 04 00:44:26 CEST 2017 
All Consumer - pool-1-thread-2: Consumer - News 

All Consumer - pool-1-thread-2: Text: Europe news 

All Consumer - pool-1-thread-2: Category: 1 

All Consumer - pool-1-thread-2: Date: Tue Apr 94 00:44:27 CEST 2017 
Science Consumer - pool-1-thread-3: Consumer - News 

All Consumer - pool-1-thread-1: Consumer - News 

Science Consumer - pool-1-thread-3: Text: Space news 

Science Consumer - pool-1-thread-3: Category: 3 

All Consumer - pool-1-thread-1: Text: Space news 

Science Consumer - pool-1-thread-3: Date: Tue Apr 04 00:44:28 CEST 2017 
All Consumer - pool-1-thread-1: Category: 3 

All Consumer - pool-1-thread-1: Date: Tue Apr @4 00:44:28 CEST 2017 
Sport Consumer - main: Consumer - Completed 

Science Consumer - main: Consumer - Completed 

All Consumer - main: Consumer - Completed 

Main: End 





10.4 小结 


FEAT, W Sf Bava 9 是 如 何 实现 反应 流 规 范 的 。 它 为 珊 有 非 阻塞 
回 压 的 异步 流 处 理 定 义 了 标准 。 该 标准 基于 以 下 三 个 要 素 。 


。 信息 的 发 布 者 。 
。 该 信息 的 一 个 或 多 个 订阅 者 。 
。 及 布 者 和 消费 者 之 间 的 订阅 关系 。 


Java 提 供 了 三 个 接口 来 实现 这 些 元 素 。 


e Flow.Publisher 接 口 ， 用 于 实现 信息 的 发 布 者 。 

。 Flow.Subscriber 接 口 ， 用 于 实现 该 信息 的 订阅 者 (消费 者 ) 。 

。 Flow.Subscription 接 口 ， 用 于 实现 发 布 者 和 订阅 者 之 间 的 订阅 
关系 。 


Java 还 提供 了 一 个 实用 工具 类 ， 即 实现 Publisher 接 口 的 
SubmissionPublisher 类 ， 如 果 应 用 程序 有 默认 行为 ， 也 可 以 使 用 
Ee 











本 章 实 现 了 两 个 示例 ， 这 两 种 实现 可 用 于 Java 中 的 反应 流 。 首 先 实现 了 
一 个 事件 通知 系统 ， 该 系统 实现 了 Subscriber 类 ， 使 

用 SubmissionPublisher 类 将 事件 发 送 给 订阅 者 。 然 后 实现 了 一 个 新 
闻 系 统 ， 它 实现 了 所 有 必 备 元 素 。 


尽管 反应 流 规范 定义 了 这 些 流 的 预期 行为 ， 但 是 基于 Java 提 供 的 接口 ， 
还 可 以 实现 不 同 的 行为 。 不 过 ， 这 并 不 是 什么 好 主意 。 


下 一 章 将 详细 介绍 可 以 在 并 发 应 用 程序 中 使 用 的 数据 结构 和 同步 机 制 。 





HALE RAPRA AA A 
步 工具 


每 个 计算 机 程序 中 最 重要 的 元 系 之 一 束 是 数据 结构 。 数 据 结构 使 我 们 可 
以 存放 数据 ， 从 而 使 应 用 程序 可 以 按照 需求 以 不 同 的 方式 读 取 、 转 换 和 
写 入 这 些 数据 。 选 择 一 种 适当 的 数据 结构 是 获得 展 好 性 能 的 关键 。 做 出 
了 糟糕 的 选择 就 会 大 幅度 降低 算法 的 性 能 。Java 并 发 API 包 含 一 些 用 于 
Mn 














并 发 应 用 程序 中 的 另 一 个 关键 点 是 同步 机 制 。 通 过 使 用 同步 机 制 ， 可 以 
创建 一 个 临界 段 〈 也 就 是 一 段 一 次 只 能 被 一 个 线程 执行 的 代码 ) ， 进 而 
实现 互 斥 。 不 过 ， 也 可 以 使 用 同步 机 制 实现 两 个 线程 之 间 的 依赖 关系 ， 
例如 一 个 并 发 任务 必须 等 待 另 一 个 任务 完成 。Java 并 发 API 包 含 了 像 
synchronized 关 键 字 这 样 的 基本 同步 机 制 ， 也 包含 了 一 些 非常 高 层 的 
工具 ， 例 如 CyclicBarrier 类 以 及 在 第 6 章 中 用 到 的 Phaser 类 等 。 


本 章 将 介绍 以 下 两 个 主题 。 


。 并 发 数据 结构 。 
。 同步 机 制 。 





11.1 并 发 数据 结构 


每 个 计算 机 程序 都 要 用 到 数据 。 它 们 从 数据 库 、 文 件 或 者 其 他 来 源 获 取 
数据 ， 对 数据 进行 转换 ， 然 后 将 转换 后 的 数据 再 写 回 到 茶 个 数据 库 、 文 
件 或 者 其 他 目标 。 程 序 对 存放 在 内 存 中 的 数据 进行 操作 ， 并 且 采 用 数据 
结构 将 数据 存放 在 内 存 中 。 


实现 一 个 并 发 应 用 程序 时 ， 必 须 注意 数据 结构 的 使 用 。 如 果 不 同 的 线程 
可 以 修改 存放 在 东 个 唯一 数据 结构 中 的 数据 ， 就 必须 使 用 同步 机 制 保护 
在 该 数据 结构 之 上 的 修改 操作 。 如 果 不 这 样 做 ， 束 会 出 现 数 据 苋 搜 条 

件 。 应 用 程序 可 能 有 时 可 以 正确 工作 ， 但 是 下 一 次 可 能 就 会 过 到 菏 个 随 
机 性 的 异常 ， 进 而 陷入 死 循环 ， 或 者 曼 无 声 电 地 给 出 一 个 不 正确 的 结 

果 。 完 竟 会 出 现 何 种 结局 ， 取 雇 于 执行 的 顺序 。 


为 了 避免 数据 竞争 条 件 ， 可 以 进行 如 下 操作 。 


。 使 用 一 种 非 同 步 的 数据 结构 ， 并 且 自 己 为 其 加 入 同步 机 制 。 
。 使 用 由 Java 并 发 API 提 供 的 条 种 数据 结构 ， 这 种 数据 结构 在 内 部 实 
现 了 同步 机 制 ， 并 且 针 对 并 发 应 用 程序 做 了 优化 。 


第 二 种 供 选 方案 是 最 推荐 的 。 本 节 将 回顾 最 重要 的 并 发 数据 结构 。 
11.1.1 阻 豆 型 数据 结构 和 非 阻塞 型 数据 结构 
Java 并 及 API 中 提供 了 两 种 并 发 数据 结构 。 


。 阳 塞 型 数据 结构 ， 这 种 类 型 的 数据 结构 提供 了 插入 数据 和 删除 数据 
的 方法 ， 当 操作 无 法 立即 执行 时 (例如 ， 如 果 你 要 选取 菜 个 元 素 但 
BORARDI , RATA REBAR, HB ULC 

。 非 阻塞 型 数据 结构 ， 这 种 类 型 的 数据 结构 提供 了 插入 数据 和 删除 数 
据 的 方法 ， 当 无 法 立即 执行 操作 时 ， 返 回 一 个 特定 值 或 者 抛 出 一 个 
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有 了 时， 非 阻 塞 型 数据 结构 会 有 一 个 与 之 等 效 的 阻 罕 型 数据 结构 。 例 
如 ，ConcurrentLinkedDeque 类 是 一 个 非 阻 塞 型 数据 结构 ， 












































而 LinkedBlockingDeque 类 则 是 一 个 与 之 等 效 的 阻塞 型 数据 结构 。 阻 
塞 型 数据 结构 的 一 些 方法 具有 非 阻塞 型 数据 结构 的 行为 。 例 如 ，Deque 
接口 定义 了 po1l1First() 方 法 ， 如 果 双 端 队列 为 空 ， 该 方法 并 不 会 阻 
塞 ， 而 是 返回 nul1 值 。 另 一 方面 ，getFirst() 方 法 在 这 种 情况 下 会 抛 
出 异常 。 每 个 阻塞 型 队列 的 实现 都 实现 了 该 方法 。 


11.1.2 ”并 发 数据 结构 

Java 集 合 框架 (Java collections framework, JCF) 提供 了 一 个 包含 多 种 
可 用 于 串 行 编程 的 数据 结构 集合 。Java 并 发 API 对 这 些 数 据 结 构 进 行 了 
人 
项 。 

° 扩展 了 JCF 提 供 的 接口 ， 添 加 了 一 些 可 用 于 并 发 应 用 程序 的 


TIE 0 
。 K: 实现 了 前 面 的 接口 ， 提 供 了 可 以 用 于 应 用 程序 的 具体 实现 。 
下 面 将 介绍 你 会 在 并 发 应 用 程序 中 用 到 的 接口 和 类 。 























首先 ， 介 绍 一 下 由 并 发 数据 结构 实现 的 最 重要 的 接口 。 
e BlockingQueue 


队列 是 一 种 线性 数据 结构 ， 人 允许 在 队列 的 末尾 插入 元 素 且 从 队 
列 的 起 始 位 置 获 取 元 素 。 它 是 一 个 先入 先 出 FIFO》 型 数据 
结构 ， 第 一 个 进入 队列 的 元 系 将 是 第 一 个 被 处 理 的 元 系 。 


JCF 定 义 了 Queue 接 口 ， 该 接口 定义 了 在 队列 中 执行 的 基本 操 
作 。 该 接口 提供 了 实现 如 下 操作 的 方法 。 


o 在 队列 的 末尾 插入 一 个 元 素 。 
o 从 队列 的 首部 开始 检索 并 删除 一 个 元 素 。 
o 从 队列 的 首部 开始 检索 一 个 元 素 但 不 删除 。 


对 于 这 些 方 法 ， 该 接口 定义 了 两 个 版 本 。 它 们 在 方法 执行 时 其 
有 不 同 的 表现 〈 例 如， 如 果 你 要 检 索 茶 个 空 队 列 中 的 元 素 ) 。 








o 可 以 抛 出 异常 的 方法 。 
o 可 以 返回 某 一 特定 值 的 方法 ， 例 如 false 或 nu11。 


下 表 包 含 了 每 个 操作 所 对 应 的 方法 名 称 。 





MEE | ERRE 








检索 并 出 除 
检索 但 不 删除 


BlockingQueue 接 口 扩展 了 Queue 接 口 ， 添 加 了 当 操 作 不 可 执 
行 时 阻塞 调用 线程 的 方法 。 这 些 方法 有 如 下 几 种。 





























ik 


检索 但 不 删除 N/A 


BlockingDeque 


与 队列 一 样 ， 双 端 队 列 也 是 一 种 线性 数据 结构 ， 但 是 允许 从 该 
数据 结构 的 两 端 插入 和 删除 元 素 。JCF 定 义 了 Deque 接 口 ， 该 
接口 扩展 了 Queue 接 口 。 除 了 Queue 接 口 提供 的 方法 之 外 ， 它 
ee 检索 且 删 除 、 检 索 但 不 删除 等 操作 
方法 。 


操作 抛 出 异常 返回 特定 值 


AA addFirst(). addLast() offerFirst(). offerLast() 














检索 并 删除 removeFirst(). removeLast() |pollFirst()、 pollLast() 





检索 但 不 删 


除 getFirst()、 getLast() peekFirst()、 peekLast() 


BlockingDeque 接 口 扩 展 了 Deque 接 口 ， 添 加 了 当 操 作 无 法 执 
行 时 阻塞 调用 线程 的 方法 。 





插入 putFirst()、 putLast() 


takeFirst()、takeLast() 








mee 不 删除 N/A 


e ConcurrentMap 


map 有 时 也 叫 关 联 数 组 ) 是 一 种 允许 存储 ( 键 ， 
结构 。JCF 提 供 了 Map 接 口 ， “ 它 定义 了 使 用 map 的 基本 操作 
些 方法 包括 如 下 几 个 。 


o put(): 同 map 插 入 一 个 ( 键 ， 值 ) 对 。 

o get(): 返回 与 某 个 键 相 关联 的 值 。 

o remove(): 删除 与 特定 键 相 关联 的 ( 键 ， 值 ) 对 。 

o sal ay 0 ae aod 如 果 map 中 包含 值 
的 特定 键 ， 则 返回 true。 


该 接口 在 Java 8 中 做 了 修改 ， 包 含 了 下 述 新 方法 。 本 章 接 下 来 
的 内 容 将 讲 到 如 何 使 用 这 些 方法 。 


o forEach(): 该 方法 针对 map 的 所 有 元 素 执 行 给 定 函 数 。 
* Compute()、computeIfAbsent() 和 
computeIfPresent(): 这 些 方法 允许 指定 一 个 函数 ， 
函数 用 于 计算 与 东 个 键 相关 的 新 值 。 

o merge(): 该 方法 允许 你 指定 将 某 个 ( 键 ， 值 ) 对 合并 到 某 
个 己 有 的 map 中 。 如 果 map 中 没有 该 键 ， 则 直接 插入 ， 人 否 
则 ， 执 行 指定 的 函数 。 


ConcurrentMap 扩 展 了 Map 接 口 ， 为 并 发 应 用 程序 提供 了 相同 
的 方法 。 请 注意 ， 在 Java 8 和 Java 9 中 (与 Java 7 不 

EJ) ，ConcurrentMap 接 口 并 未 在 Map 接 口 的 基础 上 增加 新 方 
Ve 








TransferQueue 


该 接口 扩展 了 BlockingQueue 接 口 ， 并 且 增 加 了 将 元 素 从 生产 
者 传输 到 消费 者 的 方法 。 在 这 些 方法 中 ， 生 产 者 可 以 一 直 等 到 
消费 者 取 走 其 元 素 为 止 。 该 接口 添加 的 新 方法 有 如 下 几 项 。 














02. 类 


o transfer(): 将 一 个 元 素 传输 给 一 个 消费 者 ， 并 且 等 待 
《阻塞 调用 线程 ) 该 元 素 被 使 用 。 

o tryTransfer(): WRA WREST, MkM — NA. 
人 否则， 该 方法 返回 false 值 ， 并 且 不 将 该 元 素 插 入 队列 。 





Java 并 有 友 API 为 之 前 描述 的 接口 提供 了 多 种 实现 ， 其 中 一 些 实现 并 
没有 增加 任何 新 特征 ， 而 男 一 些 实现 则 增加 了 新 里 有 用 的 功能 。 


LinkedBlockingQueue 


该 闫 实现 了 BlockingQueue 接 口 ， 提 供 了 一 个 市 有 阻塞 型 方法 
的 队列 ， 该 方法 可 以 有 任意 有 限 数 量 的 元 素 。 该 类 还 实现 了 
Queue、Collection 和 Iterable 接 口 。 











ConcurrentLinkedQueue 


该 类 实现 了 Queue 接 口 ， 提 供 了 一 个 线程 安全 的 无 限 队 列 。 从 
内 部 来 看 ， 该 类 使 用 一 种 非 阻 压 型 算法 保证 应 用 程序 中 不 会 出 
现 数据 竞争 。 


LinkedBlockingDeque 





该 类 实现 了 BlockingDeque 接 口 ， 提 供 了 一 个 市 有 阻 窗 型 方法 
的 双 端 队列 ， 它 可 以 有 任意 有 限 数 量 的 元 

素 。LinkedBlockingDeque 具 有 比 LinkedBlockingQueue 更 
多 的 功能 ， 但 是 其 开销 更 大 。 因 此 ， 应 在 双 端 队列 特性 不 必要 
的 场合 使 用 LinkedBlockingQueue 类 。 











ConcurrentLinkedDeque 


该 类 实现 了 Deque 接 口 ， 提 供 了 一 个 线程 安全 的 无 限 双 端 队 
列 ， 它 允许 在 双 病 队列 的 两 端 添加 和 删除 元 素 。 它 具有 比 
ConcurrentLinkedQueue 更 多 的 功能 ， 但 

与 LinkedBlockingDeque 相 同 ， 该 类 开销 更 大 。 


ArrayBlockingQueue 


该 类 实现 了 BlockingQueue 接 口 ， 基 于 一 个 数组 提供 了 阻塞 型 
以 列 的 一 个 实现 ， 可 以 有 有 限 个 元 素 。 它 还 实现 了 
Queue、Collection 和 Iterable 接 口 。 与 基于 数组 的 非 并 发 
数据 结构 (ArrayList 和 ArrayDeque) 不 

同 ，ArrayBlockingQueue 按 照 构造 函数 中 所 指定 的 固定 大 小 
为 数组 分 配 空间 ， 而 且 不 可 再 调整 其 大 小 。 








DelayQueue 


该 类 实现 了 BlockingDeque 接 口 ， 提 供 了 一 个 带 有 阻塞 型 方法 
和 无 限 数目 元 素 的 队列 实现 。 该 队列 的 元 素 必 须 实现 Delayed 
接口 ， 因 此 它们 必须 实现 getDelay() 方 法 。 如 果 该 方法 返回 
一 个 负 值 或 0， 那 么 延 时 已 过 期 ， 可 以 取出 队列 的 元 素 。 位 于 
队列 首部 的 是 延 时 负数 值 最 小 的 元 素 。 





LinkedTransferQueue 


该 类 提供 了 一 个 TransferQueue 接 口 的 实现 。 它 提供 了 一 个 元 
素数 量 无 限 的 阻塞 型 队列 。 这 些 元 素 有 可 能 被 用 作 生 产 者 和 消 
费 者 之 间 的 通信 信道 。 在 那里 ， 生 产 者 可 以 等 待 消费 者 处 理 它 
MII ICR - 


PriorityBlockingQueue 


该 类 提供 了 BlockingQueue 接 口 的 一 个 实现 ， 在 该 类 中 可 以 按 
照 元 系 的 自然 顺序 选择 元 素 ， 也 可 以 通过 该 类 构造 函数 中 指定 
的 比较 絮 选 择 元 系 。 该 队列 的 首部 由 元 素 的 排列 顺序 决定 。 


ConcurrentHashMap 


该 类 提供 了 ConcurrentMap 接 口 的 一 个 实现 。 它 提供 了 一 个 线 
程 安全 的 哈 希 表 。 除 了 Java 8 中 Map 接 口 新 增加 的 方法 之 外 ， 议 
类 还 增加 了 其 他 一 些 方法 。 


o search()、searchEntries()、searchKeys() 和 
searchValues(): 这 些 方法 允许 对 ( 键 ， 值 ) 对 、 键 或 者 
值 应 用 搜索 函数 。 这 些 搜索 功能 可 以 是 一 个 lambda 表 达 
式 。 搜 索 函 数 返 回 一 个 非 空 值 时 ， 该 方法 结束 。 这 也 是 该 


方法 的 执行 结 
o reduce()、reduceEntries()、reduceKeys() 和 和 

reduceValues(): 这 些 方法 允许 应 用 一 个 reduce( ) 操 作 

转换 ( 键 ， 值 ) 对 、 键 ， 或 者 将 其 整个 哈 希 表 作 为 流 处 理 

(参考 第 9 章 ， 获 取 有 关 reduce() 方 法 的 详细 内 容 ) 。 
ConcurrentHashMap 针 对 那些 依赖 其 线程 安全 性 而 非 同步 细 市 的 
程序 。 调 整 map 的 大 小 是 一 项 比较 慢 的 操作 。 该 类 还 增加 了 其 他 一 
些 方法 ， 例 如 forEachVvalue、forEachKey 等 ， 但 是 此 处 不 再 歼 


11.1.3 ”使 用 新 特性 
你 将 学 会 如 何 使 用 在 Java 8 和 Java 9 中 为 并 发 数据 结构 引入 的 新 特 





01. ConcurrentHashMap 的 第 一 个 例子 


第 9 章 实 现 了 一 个 应 用 程序 ， 可 以 对 一 个 由 20 000 个 亚马逊 商品 构 
成 的 数据 集 进 行 搜索 。 我 们 从 亚马逊 商品 联合 采购 网 络 元 数据 中 获 
取 了 这 些 信 息 ， 该 元 数据 中 包含 有 关 548 552 件 商品 的 信息 ， 包 括 
商品 的 名 称 、 销 售 排名 和 相似 商品 。 可 以 通过 搜索 SNAP 网 站 

的 “Amazon product co-purchasing network metadata” 下 载 该 数据 集 。 
在 该 例子 中 ， 我 们 采用 了 一 个 名 为 productsByBuyer 的 
ConcurrentHashMap<String，List<ExtendedProduct>> 存 放 
用 户 所 购买 商品 的 信息 。 该 map 的 键 是 用 户 的 标识 符 ， 而 其 值 为 用 
户 购 买 商品 的 列表 。 本 节 将 采用 该 map 学 习 如 何 使 

用 ConcurrentHashMap 类 的 新 方法 。 








e forEach() 方 法 


该 方法 允许 你 指定 对 ConcurrentHashMap 的 每 个 ( 键 ， 值 ) 对 都 
要 执行 的 函数 。 该 方法 有 很 多 版 本 ,但 是 最 基本 的 版 本 只 有 一 
个 可 以 以 lambda 表 达 式 表示 的 BiConsumer 函 数 。 例 如 ， 你 可 
以 使 用 该 方法 打印 每 个 用 户 购买 了 多 少 商 品 ， 其 代码 如 下 : 








productsByBuyer.forEach( (id, list) -> System.out.println(id+”: 





"+list.size())); 


这 个 基本 版 的 forEach() 方 法 是 常规 Map 接 口 的 一 部 分 ， 通 常 
以 顺序 方式 执行 。 在 这 段 代码 中 我 们 使 用 了 一 个 lambda 表 达 
式 ， 其 中 id 是 元 系 的 键 ， 而 1ist 是 元 素 的 值 。 


在 另 一 个 例子 中 ， 使 用 了 forEach( ) 方 法 来 计算 用 户 的 平均 评 
Bh. 


a 





productsByBuyer.forEach( (id, list) -> { 
double average=list.stream().mapToDouble(item -> item.getValue( 


.average().getAsDouble(); 
System.out.println(id+": "+average); 


}); 


在 这 段 代码 中 ， 也 使 用 了 一 个 lambda 表 达 式 ， 其 中 id 是 元 素 的 
键 ，1ist 是 元 素 的 值 。 我 们 将 一 个 流 应 用 到 该 商品 列表 ， 计 算 
了 平均 评级 。 


该 方法 还 有 如 下 其 他 版 本 。 


o forEach(parallelismThreshold, action): 这 是 要 
在 并 发 应 用 程序 中 使 用 的 版 本 。 如 有 果 map 的 元 素 多 于 第 一 
个 参数 指定 的 数目 ， 该 方法 将 以 并 行 方式 执行 。 
forEachEntry(parallelismThreshold, action): 该 
版 本 与 上 一 版 本 相似 ， 只 不 过 在 该 版 本 中 Action 

是 Consumer 接 口 的 一 个 实现 ， 它 接收 一 个 Map .Entry 对 
象 作 为 参数 ， 其 中 含有 元 素 的 键 和 值 。 这 种 情况 下 也 可 以 
使 用 一 个 lambda 表 达 式 。 
forEachKey(parallelismThreshold, action): 该 版 
本 与 前 一 版 本 相似 ， 只 不 过 在 这 种 情况 下 Action 仅 应 用 于 
ConcurrentHashMap 的 键 。 
forEachValue(parallelismThreshold, action): 该 
版 本 与 前 一 版 本 相似 ， 只 不 过 在 这 种 情况 下 Action 仪 应 用 
于 ConcurrentHashMap 的 值 。 








oO 


fe) 





O° 


当前 的 实现 采用 公共 的 ForkJoinPoo1l 实 例 执行 并 行 任务 。 
。 search() 方 法 
该 方法 对 ConcurrentHashMap 的 所 有 元 素 均 应 用 一 个 搜索 函 





数 。 该 搜索 函数 可 以 返回 一 个 空 值 或 者 一 个 不 同 于 nul1 的 
值 。search() 方 法 将 返回 搜索 函数 所 返回 的 第 一 个 非 空 值 。 
该 方法 接收 两 个 参数 。 


o parallelismThreshold: 如 果 map 的 元 素 比 该 参数 指定 
的 数目 多 ， 访 方法 将 以 并 行 方式 执行 。 

o searchFunction: 这 是 BiFunction 接 口 的 一 个 实现 ， 可 
以 表示 为 一 个 lambda 表 达 式 。 该 函数 接收 每 个 元 素 的 键 和 
全 作为 参数 ， De ea 如 果 找 到 了 要 找 的 结果 ， 访 

函数 就 必须 返回 一 个 非 空 值 ， 否 则 返回 一 个 空 值 。 


例如 ， 你 可 以 采用 该 函数 碍 找 第 一 本 含有 某 个 单词 的 书 。 





ExtendedProduct firstProduct=productsByBuyer.search(166， 
(id, products) -> { 
for (ExtendedProduct product: products) { 
if (product.getTitle().toLowerCase().contains("java")) { 
return product; 


} 


return null; 
})3 
if (firstProduct!=null) { 
System.out.println(firstProduct.getBuyer()+":"+ 
firstProduct.getTitle()); 





本 例 使 用 100 作 为 parallelismThreshold， 使 用 一 个 lambda 
表达 式 实现 搜索 函数 。 在 该 函数 中 ， AF REDIR M T» 我 们 
将 会 处 理 该 列表 中 的 所 有 商品 。 如 果 找 到 了 一 个 o 
的 商品 ， 则 返回 该 商品 。 这 是 由 search() 方 法 返 回 的 值 。 

后 ， 在 控制 台 打印 该 商品 的 购买 者 和 商品 名 称 。 


该 方法 的 其 他 版 本 还 有 如 下 几 种 。 


o searchEntries(parallelismThreshold, 
searchFunction): 在 这 种 情况 下 ， 搜 索 函 数 
是 Function 接 口 的 一 个 实现 ， 接 收 一 个 Map .Entry 对 象 
作为 参数 。 


o searchKeys(parallelismThreshold, 











searchFunction): 在 这 种 情况 下 ， 搜 索 函 数 仅 应 用 于 
ConcurrentHashMap 的 键 。 

o searchValues(parallelismThreshold, 
searchFunction): 在 这 种 情况 下 ， 搜 索 函 数 仅 应 用 于 
ConcurrentHashMap 的 值 。 


e reduce() 方 法 


该 方法 和 Stream 框 架 提 供 的 reduce( ) 方 法 相似 ， 但 是 在 这 种 
情况 下 ， 你 将 直接 对 ConcurrentHashMap 的 元 素 进行 操作 。 
该 方法 接收 以 下 三 个 参数 。 


o parallelismThreshold: 如 果 ConcurrentHashMap 的 
元 素数 多 于 该 参数 所 指定 的 数目 ， 该 方法 将 以 并 行 方式 执 
AT 6 

o transformer: 该 参数 是 BiFunction 接 口 的 一 个 实现 ， 
可 以 表示 为 一 个 lambda 函 数 。 它 接收 一 个 键 和 一 个 值 作 为 
参数 ， 并 且 返 回 这 些 元 素 的 转换 结果 。 

o reducer: 该 参数 是 BiFunction 接 口 的 一 个 实现 ， 也 可 
以 表示 为 一 个 lambda 函 数 。 它 接收 由 转换 器 函数 返回 的 两 
该 函数 的 目标 是 将 这 两 个 对 象 组 合成 一 

WIES 


作为 该 方法 的 例子 之 一 ， 我 们 将 获取 一 个 评论 取 值 为 1 CIA 
情况 ) 的 商品 列表 。 本 例 用 到 了 两 个 辅助 变量 。 第 一 个 

是 transformer。 它 是 一 个 BiFunction 接 口 ， 用 作 reduce() 
方法 的 tramsformer 元 素 。 





BiFunction<String, List<ExtendedProduct>, List<ExtendedProduct>> 


transformer = (key, value) ->value.stream().filter(product -> 
product.getValue() == 1).collect(Collectors.toList()); 





该 函数 接收 键 ( 即 用 户 的 1d〉 和 一 个 ExtendedProduct 对 象 
列表 (含有 该 用 户 购买 的 商品 〉 作 为 参数 。 我 们 处 理 该 列表 中 
的 所 有 商品 ， 并 且 返 回 评级 为 1 的 商品 。 


第 二 个 变量 是 约 简 器 BinaryOperator， 作 为 reduce() 方 法 的 
约 简 器 函数 。 


BinaryOperator<List<ExtendedProduct>> reducer = (list1, list2) -> 
list1.addAl11(list2); 


return list1; 


}; 


该 约 简 器 接收 两 个 ExtendedProduct 列 表 作 为 参数 ， 并 且 使 
用 addA11() 方 法 将 它们 连接 成 一 个 列表 。 


现在 ， 只 需要 实现 对 reduce() 方 法 的 调用 。 





List<ExtendedProduct> badReviews=productsByBuyer.reduce(16， 
transformer, reducer); 
badReviews.forEach(product -> { 


System.out.println(product.getTitle()+":"+ 
product.getBuyer()+":"+product.getValue()); 


}); 


还 有 其 他 一 些 版 本 的 reduce( ) 方 法 。 





o reduceEntries(). reduceEntriesToDouble(). redui 
AlreduceEntriesToLong(): XfFixtetel, Fe AE EK 
数 和 约 简 器 函数 都 针对 Map .Entry 对 象 进行 处 理 。 后 三 个 
版 本 的 方法 分 别 返回 一 个 double、 一 个 int 和 一 个 long 
值 。 

reduceKeys(). reduceKeysToDouble(). reduceKeys’ 
AllreduceKeysToLong(): 对 于 这 些 情况 ， 转 换 堪 函数 和 
约 简 器 函数 都 针对 map 的 键 进行 处 理 。 后 三 个 版 本 的 方法 
分 别 返 回 一 个 double、 一 个 int 和 一 个 long 值 。 
reduceToInt()、reduceToDouble() 和 
reduceToLong(): 对 于 这 些 情况 ， 转 换 器 函数 针对 键 和 
值 进行 处 理 ， 而 约 简 器 方法 分 别针 对 int、double 和 long 
数值 进行 处 理 。 这 些 方法 分 别 返 回 一 个 int、 一 个 double 
和 一 个 long 值 。 
reduceValues()、reduceValuesToDouble()、reduce 
和 reduceValuesToLong(): 对 于 这 些 情况 ， 转 换 器 函数 
和 约 简 器 函数 都 针对 map 的 值 进行 处 理 。 后 三 个 版 本 的 方 
法 分 别 返 回 一 个 double、 一 个 int 和 一 个 long 值 。 


O 〇 


(0) 


(0) 


e compute() 方 法 








该 方法 〈 在 Map 接 口中 定义 ) 接收 一 个 元 素 的 键 和 BiFunction 
接口 的 一 个 实现 〈 可 以 用 lambda 表 达 式 表示 ) 作为 参数 。 如 果 
元 素 的 键 存在 于 ConcurrentHashMap 中 ， 则 该 函数 将 接收 元 

系 的 键 和 值 作为 参数 ， 否 则 将 接收 空 值 作为 参数 。 如 果 该 函数 
返回 的 值 存在 ， 该 方法 将 用 该 水 数 返 回 的 值 来 蔡 换 与 该 键 相关 
的 值 ， 如 果 该 函数 返回 的 值 不 存在 ， 则 将 该 值 插 入 

到 ConcurrentHashMap; 如 果 返 回 值 为 nul1， 则 说 明 当 前 项 

已 存在 ， 那 么 就 删除 当前 项 。 请 注意 ， 在 BiFunction 执 行 期 

间 ， 将 锁 闭 一 个 或 几 个 map 记 录 。 因 此 ，BiFunction 的 执行 

时 间 不 应 过 长 ， 而 且 不 应 该 答 试 更 新 同一 map 中 的 任何 其 他 记 
录 ， 人 否则 可 能 会 出 现 死 锁 。 


例如 ， 我 们 在 使 用 该 方法 时 ， 可 以 采用 Java 8 中 引入 的 名 

为 LongAdder 新 型 原子 变量 ， 以 计算 和 每 个 商品 相关 的 差 评 数 
量 。 我 们 创建 了 一 个 新 的 ConcurrentHashMap， 名 

为 counter。 它 的 键 是 商品 的 名 称 ， 值 为 LongAdder 类 的 一 个 
对 象 ， 用 于 计算 每 个 商品 有 多 少 差 评 。 


ConcurrentHashMap<String, LongAdder> counter=new ConcurrentHashMa 


我 们 处 理 前 面 计 算得 到 的 所 

有 badReviewsConcurrentLinkedDeque 元 素 ， 并 且 使 
用 compute( ) 方 法 来 创建 和 更 新 与 每 个 商品 相关 的 
LongAdder. 








badReviews.forEach(product -> { 
counter.computeIfAbsent(product.getTitle(), title -> new 
LongAdder()).increment(); 
})3 


counter.forEach((title, count) -> { 
System.out.println(title+":"+count) ; 


}); 





最 后 ， 将 结果 输出 到 控制 合 。 


02. ConcurrentHashMap 的 另 一 个 例子 





ConcurrentHashMap 类 中 还 增加 了 男 一 个 方法 ， 它 也 是 Map 接 口中 
定义 的 方法 。 这 就 是 merge() 方 法 ， 它 可 以 将 一 个 ( 键 ， 值 ) 对 合并 


到 map。 如 果 ConcurrentHashMap 中 不 存在 该 键 ， 则 直接 插入 该 
键 。 如 果 ConcurrentHashMap 中 存在 该 键 ， 则 需要 定义 新 旧 两 个 
键 中 完 竟 哪 一 个 应 该 与 新 值 相关 联 。 该 方法 接收 三 个 参数 。 


。 要 合并 的 键 。 

。 要 合并 的 值 。 

。 可 表示 为 一 个 lambda 表 达 式 的 BiFunction 的 实现 。 该 函数 接 
收 与 该 键 相关 的 旧 值 和 新 值 作为 参数 。 该 方法 将 该 函数 返回 的 
值 与 该 键 关联 。BiFunction 执 行 时 对 map 进 行 部 分 锁定 ， 这 
样 可 以 保证 同一 个 键 不 会 被 并 发 执行 。 


例如 ， 我 们 按照 评论 的 年 份 字段 对 前 面 用 到 的 亚马逊 的 20 000 个 商 
品 进 行 了 划分 。 对 于 每 一 年 ， 均 加 载 ConcurrentHashMap， 其 键 
为 商品 ， 而 其 值 为 评论 列表 。 这 样 ， 便 可 以 通过 下 述 代码 加 载 1995 
年 和 1996 年 的 评论 。 





Path path=Paths.get("data\\amazon\\1995.txt"); 
ConcurrentHashMap<BasicProduct, ConcurrentLinkedDeque<BasicReview>> 

products1995=BasicProductLoader.load(path) ; 
showData(products1995) ; 


path=Paths.get("data\\amazon\\1996.txt") ; 

ConcurrentHashMap<BasicProduct, ConcurrentLinkedDeque<BasicReview>> 
products1996=BasicProductLoader.load(path) ; 

System.out.println(products1996.size()); 

showData(products1996) ; 





如 果 想 将 两 个 ConcurrentHashMap 合 并 为 一 个 ， 则 可 以 使 用 下 面 
的 代码 。 


products1996.forEach(10, (product, reviews) -> { 
products1995.merge(product, reviews, (reviews1, reviews2) -> { 
System.out.println( "Merge for: "+product.getAsin()); 


reviews1.addAll1(reviews2); 
return reviews1; 





我 们 处 理 Products1996 ConcurrentHashMap 的 所 有 元 素 ， 并 且 对 每 
个 ( 键 ， 值 ) 对 都 调用 Products1995 ConcurrentHashMap 的 merge() 
方法 。merge 函 数 将 接收 两 个 评论 列表 ， 这 样 我 们 只 需 将 它们 连接 


03. 


成 一 


个 列表 即 可 。 


一 个 采用 ConcurrentLinkedDeque 类 的 例子 


Collection 接 口 也 引入 了 Java 8 中 的 一 些 新 方法 。 大 多 数 并 发 数据 
结构 都 实现 了 该 接口 ， 因 此 可 以 通过 它们 使 用 这 些 新 特性 。 其 中 两 
种 方法 是 stream() 和 parallelstream()， 它 们 在 第 8 章 和 第 9 章 中 
都 已 经 用 到 。 下 面 看 看 如 何 使 用 另外 两 种 方法 ， 这 要 用 到 前 面 章节 
已 提 到 的 含有 20 000 个 商品 的 ConcurrentLinkedDeque。 








removeIf() 方 法 


该 方法 在 Collection 接 口中 有 一 个 默认 实现 ， 它 是 非 并 发 的 
而 且 并 没有 被 ConcurrentLinkedDeque 类 重 载 。 该 方法 接收 
一 个 Predicate 接 口 的 实现 作为 参数 ， 这 样 就 会 接 

收 Collection 中 的 一 个 元 素 作 为 参数 ， 而 且 应 该 返回 一 

个 true 或 false 值 。 访 方法 将 处 理 Collection 中 的 所 有 元 
素 ， 而 且 当 谓词 取 值 为 true 时 将 删除 这 些 元 素 。 


例如 ， 如 果 要 删除 所 有 销售 排名 高 于 1000 的 商品 ， 可 以 使 用 下 
面 的 代码 。 





System.out.println("Products: "+productList.size()); 
productList.removelf(product -> product.getSalesrank() > 1000); 
System.out.println("Products; "+productList.size()); 


productList.forEach(product -> { 
System.out.println(product.getTitle()+": "+ 
product.getSalesrank()); 


}); 





spliterator() 方 法 


该 方法 返回 spliterator 接 口 的 一 个 实现 。 一 个 spliterator 定 义 
了 可 被 Stream API 使 用 的 数据 源 。 需 要 直接 使 用 spliterator 的 
情况 很 少 ， 但 是 有 时 可 能 希望 创建 自己 的 spliterator 来 为 流产 生 
一 个 定制 的 源 〈 例 如 ， 如 果实 现 了 自己 的 数据 结构 ) 。 如 果 有 
目 己 的 spliterator 实 现 ， 可 以 使 
HStreamSupport.stream(mySpliterator, isParallel) 
在 其 之 上 创建 一 个 流 。 其 中 ，isParallel 是 一 个 布尔 值 ， 决 


定 了 要 创建 的 流 是 否 为 并 行 流 。spliterator 在 某 种 意义 上 很 像 迭 
代 强 ， 可 用 来 忆 历 集合 中 的 所 有 元 系 ， 但 你 可 以 对 元 素 进行 划 


分 ， 








从 而 以 并 肥 的 方式 进行 志 历 操作 。 


一 个 spliterator 具 有 8 个 定义 其 行为 的 不 同 特征 。 


O 〇 


O O O Oo 


CONCURRENT: 可 以 安全 地 以 并 发 方式 对 spliterator 源 进行 
修改 。 

DISTINCT: spliterator 所 返回 的 所 有 元 素 均 不 相同 。 
IMMUTABLE: spliterator 源 无 法 被 修改 。 

NONNULL: spliterator 不 返回 null 值 。 

ORDERED: spliterator 所 返回 的 元 素 是 经 过 排序 的 (这 意味 
着 它们 的 顺序 很 重要 ) 。 

SIZED: spliterator 可 以 使 用 estimateSize() 方 法 返回 确 
定数 目的 元 素 。 














o SORTED: spliterator 源 经 过 了 排序 。 
o SUBSIZED: 如 果 使 用 trySplit() 方 法 分 割 该 spliterator， 


产生 的 spliterator 将 是 SIZED 和 SUBSIZED 的 。 





该 接口 最 有 用 的 方法 是 如 下 几 种 。 


O° 


O 〇 


estimatedSize(): 该 方法 将 返回 spliterator 中 元 素数 的 
估计 值 。 

forEachRemaining(): 该 方法 允许 你 将 一 个 Consumer 
接口 的 实现 (可 以 表示 为 一 个 lambda 函 数 ) 应 用 到 
spliterator 尚 未 进行 处 理 的 元 素 。 





o tryAdvance(): 该 方法 接收 一 个 Consumer 接 口 的 实现 


《可 以 表示 为 一 个 lambda 函 数 ) 作为 参数 。 它 选取 
spliterator 中 的 下 一 个 元 素 ， 使 用 Consumer 实 现 进行 处 理 
并 返回 true 值 。 如 果 spliterator 再 没有 要 处 理 的 元 素 ， 则 
它 返 回 false 值 。 


o trySplit(): 该 方法 演 试 将 spliterator 分 割 成 两 个 部 分 。 





作为 调用 方 的 spliterator 将 处 理 其 中 的 一 些 元 素 ， 而 返回 的 
spliterator 将 处 理 男 一 些 元 素 。 如 果 该 spliterator 

是 ORDERED， 则 返回 的 spliterator 必 须 按照 严格 排序 处 理 元 
素 ， 而 且 调 用 方 也 必须 按 该 严格 排序 处 理 。 
hasCharacteristics(): 访 方 法 允许 你 检查 spliterator 的 
属性 。 


下 面 看 一 个 关于 该 方法 的 例子 ， 这 里 要 用 到 含有 20 000 个 商品 
的 ArrayList 数 据 结构 。 


首先 ， 我 们 需要 一 个 辅助 任务 ， 它 将 对 一 个 商品 集合 进行 处 
理 ， 将 它们 的 名 称 转换 成 小 写 形式 。 该 任务 将 采用 一 
个 spliterator 作 为 属性 。 


public class SpliteratorTask implements Runnable { 


private Spliterator<Product> spliterator; 


public SpliteratorTask (Spliterator<Product> spliterator) { 
this.spliterator=spliterator; 


} 


@Override 
public void run() { 
int counter=0; 
while (spliterator.tryAdvance(product -> { 
product.setTitle(product.getTitle().toLowerCase()); 
})) { 
counter++; 
}; 
System.out.println(Thread.currentThread().getName() 
+":"+counter) ; 





正如 你 所 看 到 的 ， 当 该 任务 完成 执行 时 ， 它 将 输出 已 处 理 的 商 


品 数 量 。 


在 主 方法 中 ， 一 旦 将 20 000 个 商品 加 载 
到 ConcurrentLinkedQueue， 就 可 以 得 到 一 个 spliterator， 检 
查 它 的 一 些 属性 ， 并 且 查 看 其 估计 规模 。 


Spliterator<Product> split1=productList.spliterator(); 
System.out.println(split1.hasCharacteristics(Spliterator.CONCURRE 


System.out.println(split1.hasCharacteristics(Spliterator.SUBSIZED 
System.out.println(split1.estimateSize()); 








然后 ， 使 用 trySplit() 方 法 来 分 割 该 spliterator， 并 且 查 看 两 


个 spliterator 的 大 小 。 


Spliterator<Product> split2=split1.trySplit(); 


System.out.println(split1.estimateSize()); 
System.out.println(split2.estimateSize()); 





最 后 ， 可 以 在 一 个 执行 器 中 执行 两 个 任务 ， 其 中 一 个 针对 
spliterator， 用 于 查看 每 个 spliterator 是 否 确实 将 预期 数量 的 元 素 
处 理 完毕 。 


ThreadPoolExecutor executor=(ThreadPoolExecutor) 
Executors.newCachedThreadPool(); 


executor.execute(new SpliteratorTask(split1)); 
executor.execute(new SpliteratorTask(split2)); 











在 下 面 的 屏幕 截图 中 ， 你 可 以 看 到 本 例 的 执行 结果 。 


<terminated> ConcurrentSpliteratorMain [Java Application] C:\Program Files\Java\jdk-9\b 
false 

true 

20000 

10000 

10000 

pool-1-thread-1:10000 

pool-1-thread-2:10000 


可 以 发 现 ， 在 分 割 spliterator 之 前 ，estimatedSize() 方 法 如 
何 返回 20 000 个 元 素 。 在 执行 trySplit() 方 法 之 后 ， 每 个 
spliterator 都 有 10 000 个 元 素 。 这 些 就 是 每 个 任务 所 处 理 的 元 
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11.1.4 原子 变量 


原子 变量 是 在 Java 1.5 中 引入 的 ， 用 于 提供 针对 

integer、1long、boolean、reference 和 Array 对 象 的 原子 操作 。 它 

们 提供 了 一 些 方法 来 递增 值 、 递 减 值 、 确 定 值 、 返 回 值 ， 或 者 在 其 当前 

人 原子 变量 提供 了 与 volatile 关 键 字 相似 的 
障 。 


Java 8 中 增加 了 四 个 新 类 ， 


BDoubleAccumulator、DoubleAdder、LongAccumulator 和 和 
LongAdder。 在 前 一 节 中 ， 我 们 使 用 LongAdder 类 计算 了 商品 的 差 评 
数 。 访 类 提供 了 与 AtomicLong 相 似 的 功能 ， 但 是 当 经 常 更 新 来 自 不 同 
线程 的 累加 操作 并 且 只 需要 在 操作 的 末端 给 出 结果 时 ， 该 类 具有 更 好 的 
性 能 。DoubleAdder 函 数 与 之 类 似 ， 只 不 过 针对 double 值 。 这 两 个 类 
的 主要 目标 都 是 为 了 给 出 一 个 不 同 的 线程 可 以 以 一 致 的 方式 对 其 更 新 的 
计数 器 。 这 些 类 当中 最 重要 的 方法 包括 如 下 几 种 。 


e add(): 为 计数 器 增加 参数 中 指定 的 值 。 
e increment(): 相当 于 add(1)。 

e decrement(): 相当 于 add(-1)。 

e sum(): 该 方法 返回 计数 器 的 当前 值 。 


请 注意 ，DoubleAdder 类 并 没有 increment() 和 decrement() 方 法 。 














LongAccumulator 类 和 LongAdder 类 很 类 似 ， 但 是 它们 也 有 一 个 非常 明 
显 的 区 别 。 它 们 都 有 一 个 可 以 指定 如 下 两 个 参数 的 构造 函数 。 


e 内 部 计数 器 的 标识 值 。 

。 一 个 将 新 值 累加 到 累加 器 的 函数 。 
要 注意 的 是 ， 该 图 数 并 不 依赖 于 趟 加 的 顺序 。 在 这 种 情况 下 ， 最 重要 的 
方法 就 是 如 下 两 种 。 

e accumulate(): 该 方法 接收 一 个 long 值 作为 参数 。 它 应 用 函数 对 

计数 费 进 行 递 增 或 递减 操作 ， 使 之 成 为 当前 值 和 参数 指定 值 。 

e get(): 返回 计数 器 的 当前 值 。 

例如 ， 下 面 的 代码 执行 完毕 后 会 将 362 880 输 出 到 控制 合 。 


LongAccumulator accumulator=new LongAccumulator((x,y) -> x*y, 1); 


IntStream.range(1, 10).parallel().forEach(x -> accumulator 
.accumulate(x)); 





System.out.println(accumulator.get()); 





在 累加 器 中 使 用 交换 运算 ， 这 样 对 于 任意 输入 顺序 ， 其 输出 结果 均 相 


同 


11.1.5 ”变量 句柄 


变量 句柄 (variable handle) 是 一 种 对 变量 、 静 态 域 或 数组 元 素 的 动态 

型 引用 ， 使 你 可 以 多 种 不 同 的 模式 访问 该 变量 。 例 如 ， 可 以 在 并 发 应 用 
程序 中 对 变量 进行 访问 保护 ， 实 现 对 该 变量 的 原子 访问 。 在 此 之 前 ， 你 
只 能 通过 原子 变量 获得 这 样 的 行为 ， 但 是 现在 可 以 使 用 变量 句柄 获得 同 
样 的 功能 ， 而 不 需要 采用 任何 同步 机 制 。 


这 是 Java 9 中 引入 的 一 种 新 特性 ， 由 VarHandle 类 提供 。 变 量 句柄 有 如 
下 几 种 访问 方法 。 


。 该 取 访 问 模式 : 根据 不 同方 法 ， 该 模式 允许 按照 不 同 的 内 存 排序 规 
则 读 取 变量 的 值 。 你 可 以 使 
用 get()、 a getAcquire() 和 getOpaque() 方 法 
读 取 变量 的 值 。 一 种 方法 将 变量 视 为 非 易 失 性 变量 读 取 。 第 二 种 
方法 将 变量 作为 易 失 性 变量 来 污 取 。 第 三 种 方法 确保 对 该 变量 的 其 
他 访问 在 该 语句 之 前 不 会 因为 优化 方面 的 原因 而 重新 排序 。 而 最 后 
一 种 方法 与 第 三 种 类 似 ， 但 是 它 仅 对 当前 线程 有 影响 。 
写 入 访问 模式 : 根据 方法 不 同 ， 该 模式 允许 你 按照 不 同 的 内 存 排序 
规则 写 入 变量 的 值 。 可 以 使 
用 set()、setVolatile()、setRelease() 和 setOpaque() 方 
rae Gee eal ire! 只 不 过 是 针对 写 入 
访问 的 。 
。 原子 更 新 访问 模式 这 种 模式 获得 与 原子 变量 类 似 的 功能 和 操作 ， 
例如 比较 变量 的 值 。 你 可 以 使 用 下 述 方法 。 

o compareAndSet(): 如 果 作 为 参数 传递 的 预期 值 和 变量 的 当 

前 值 相等 ， 那么 改变 变量 的 值 ， 就 像 变 量 是 被 声明 为 易 失 性 变 


i=! 















































量 一 样 。 
o weakCompareAndset() 和 weakCompareAndSetPlain( ): 如 
fe ee 前 值 相等 ， 那 么 目 动 将 变 
量 量 的 当前 值 殖 换 为 新 值 。 第 一 种 法 将 变量 视 为 一 个 易 失 性 变 
量 ， 而 第 二 种 法 将 变量 视 为 一 个 非 易 夫 性 变 鲁 。 
。 数值 型 原子 更 新 访问 模式 : 这 种 模式 以 原子 方式 修改 数值 。 你 可 
以 使 用 下 面 的 方法 。 
o getAndAdd(): 增加 变量 的 值 并 且 返 回 之 前 的 值 ， 因 为 该 变量 
被 原子 自动 声明 为 一 个 易 失 性 变量 
。 位 原子 更 新 访问 模式 : 这 种 模式 以 原 子 方式 按 位 修改 值 。 你 可 以 使 




















用 getAndBitwiseOr() 或 者 getAndBitwiseAnd() 方 法 。 


例如 ， 可 用 一 个 名 为 VarHandleData 的 类 ， 它 有 名 为 safeValue 和 
unsafeValue 的 两 个 属性 。 


public class VarHandleData { 
public double safeValue; 


public double unsafeValue; 


} 








下 面 实现 一 个 含有 10 个 线程 的 例子 ， 并 发 更 新 这 两 个 属性 的 值 。 我 们 将 
使 用 VarHandle 直 接 更 新 safeValue 属 性 和 unsafeValue 属 性 的 值 。 


创建 一 个 对 象 某 个 域 的 VarHandle 对 象 的 最 简单 方式 是 使 

用 MethodHandles 类 中 的 静态 方法 lookup()。 该 方法 会 返回 一 

个 MethodHandles .Lookup 工 三 对 象 ， 它 用 于 创建 MethodHandles。 然 
后 ， 使 用 in() 方 法 获得 一 个 面 同 当 前 类 (这 里 是 VarHandleData) 的 
MethodHandles。 最 后 ， 使 用 findVarHandle() 方 法 获取 对 

象 VarHandle， 以 访问 对 象 的 域 。 


例如 ， 如 果 想 要 使 用 Va rHandle 访 问 VarHandleData 对 象 的 safeValue 
属性 ， 可 以 采用 下 述 指令 。 





handler = MethodHandles.lookup().in(VarHandleData.class) 


. findVarHandle(VarHandleData.class, 
"safeValue", double.class); 





因此 ， 我 们 实现 一 个 名 为 VarHandleTask 的 类 ， 该 类 实现 了 Runnable 
接口 ， 它 可 以 增加 和 减少 VarHandleData 对 象 的 两 个 属性 的 值 。 如 前 所 
述 ， 我 们 使 用 VarHandle 对 象 访 问 safeValue 属 性 (通过 getAndAdd() 
方法 ) ， 并 且 直 接 修改 unsafeValue 属 性 。 





public class VarHandleTask implements Runnable { 

private VarHandleData data; 

public VarHandleTask(VarHandleData data) { 
this.data = data; 

} 

@Override 

public void run() { 
VarHandle handler; 


try { 
handler = MethodHandles.lookup().in(VarHandleData.class) 
. findVarHandle(VarHandleData.class, 
"safeValue", double.class); 
for (int i = ð; i < 10000; i++) { 
handler.getAndAdd(data, +100); 
data.unsafeValue += 100; 
handler.getAndAdd(data, -100); 
data.unsafeValue -= 100; 
} 
} catch (NoSuchFieldException | IllegalAccessException e) { 
e.printStackTrace(); 





最 后 ， 实 现 VarHandleMain 类 ， 该 类 创建 一 个 VarHandleData 对 象 和 
10 个 并 发 更 新 同一 对 象 的 VarHandleTasks。 


public class VarHandleMain { 
public static void main(String[] args) { 
VarHandleData data = new VarHandleData(); 
for (int i=@; i<10; i++) { 
VarHandleTask task=new VarHandleTask(data) ; 
ForkJoinPool.commonPool().execute(task) ; 
} 


ForkJoinPool.commonPool().shutdown() ; 
try { 


ForkJoinPool.commonPool().awaitTermination(1, TimeUnit.DAYS) ; 
} catch (InterruptedException e) { 

// 自动 生成 的 catch 代 码 块 

e.printStackTrace(); 
} 
System.out.println("Safe Value: "+data.safeValue); 
System.out.println("Unsafe Value: "+data.unsafeValue); 








执行 本 例 时 ， 将 看 到 如 何 使 safeValue 属 性 的 值 总 如 预期 一 样 为 0， 但 
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11.2 ”同步 机 制 


任务 的 同步 机 制 是 任务 之 间 为 得 到 预期 结果 而 进行 的 协调 。 在 并 发 应 用 
程序 中 ， 有 两 种 同步 机 制 。 


。 进程 同步 : 想 要 控制 任务 的 执行 顺序 时 ， 就 可 以 使 用 这 种 同步 。 例 
如 ， 一 个 任务 必须 等 竺 另 一 任务 终止 才 开始 执行 。 

。 数据 同步 : 当 两 个 或 多 个 任务 访问 同一 内 存 对 象 时 ， 可 以 使 用 这 种 
同步 。 在 这 种 情况 下 ， 必 须 保护 写 入 操作 对 该 对 象 的 访问 权限 。 如 
条 不 这 样 做 ， 惑 会 出 现 数据 竞争 条 件 ， 一 个 程序 的 最 终结 末 在 每 次 
执行 时 都 不 同 。 


Java 并 发 API 提 供 了 多 种 机 制 ， 让 你 可 以 实现 上 述 两 种 类 型 的 同步 。Java 
语言 提供 的 最 基本 的 同步 机 制 是 synchronized 关 键 字 。 该 关键 字 可 应 
用 于 某 个 方法 或 者 某 个 代码 块 。 对 于 第 一 种 情况 ， 一 次 只 有 一 个 线程 可 
以 执行 该 方法 。 对 于 第 二 种 情况 ， 要 指定 一 个 对 某 个 对 象 的 引用 。 在 这 
种 情况 下 ， 同 时 只 能 执行 被 某 一 对 象 保护 的 一 个 代码 块 。 


Java 也 提供 了 其 他 一 些 同步 机 制 。 


Lock 接 口 及 其 实现 类 : 该 机 制 允 许 你 实现 一 个 临界 段 ， 保 证 只 有 一 
个 线程 执行 该 代码 块 。 
ac phore 类 实现 了 由 Edsger Dijkstra 提 出 的 著名 的 信号 量 同步 机 
I}. 
CountDownLatch 人 允许 你 实现 这 样 的 场景 : 一 个 或 多 个 线程 等 待 其 
他 线程 结束 。 
CyclicBarrier 人 允许 你 将 不 同 的 任务 同步 到 某 个 共同 的 节点 。 
Phaser 类 人 允许 你 分 为 多 个 阶段 实现 并 发 任务 。 第 6 章 中 已 经 详细 介 
绍 了 这 种 机 制 。 
Exchanger 人 允许 你 在 两 个 线程 之 间 实 现 一 个 数据 交换 点 。 
CompletableFuture 是 Java 8 的 新 特性 ， 它 扩展 了 执行 器 任务 的 
Future 机 制 ， 以 一 种 异步 方式 生成 任务 的 结果 。 可 以 指定 任务 在 
结果 生成 之 后 执行 ， 这 样 就 可 以 控制 任务 的 执行 顺序 。 


下 面 将 介绍 如 何 使 用 这 些 机 制 ， 着 重 讲述 Java 8 中 引入 的 
CompletableFuture 机 制 |。 











11.2.1 CommonTask2& 


我 们 实现 了 一 个 名 为 CommonTask 的 类 。 该 类 将 在 随机 的 一 段 时 间 (0 到 
10 秒 ) 内 将 调用 线程 休眠 。 其 源 代 码 如 下 。 


public class CommonTask { 


public static void doTask() { 
long duration = ThreadLocalRandom.current().nextLong(1@) ; 
System.out.printf("%s-%s: Working %d seconds\n", 
new Date(), Thread. currentThread().getName(), 
duration); 
try { 
TimeUnit .SECONDS.sleep(duration) ; 
} catch (InterruptedException e) { 
e.printStackTrace(); 





以 下 各 节 中 实现 的 所 有 任务 都 要 用 该 类 来 模拟 其 执行 时 间 。 
11.2.2 Lock 接口 


最 基本 的 一 种 同步 机 制 就 是 Lock 接 口 及 其 实现 类 。 基 本 实现 类 

是 ReentrantLock 类 。 可 以 方便 地 使 用 该 类 实现 一 个 临界 段 。 例 如 ， 下 
面 的 任务 在 代码 的 第 一 行使 用 lock() 方 法 获得 了 一 个 锁 ， 并 且 在 代码 
的 最 后 一 行使 用 unlock() 方 法 释放 了 该 锁 。 你 必须 在 finally 部 分 调 
用 un1lock() 方 法 以 避免 出 现 问题 。 否 则 ， 如 果 抛 出 异常 ， 则 该 锁 将 不 
0 








public class LockTask implements Runnable { 


private static ReentrantLock lock = new ReentrantLock(); 
private String name; 


public LockTask(String name) { 
this.name=name; 


} 


@Override 
public void run() { 


try { 
lock. lock(); 
System.out.println("Task: " + name + "; Date: " + new Date() 
+ ": Running the task"); 
CommonTask.doTask(); 
System.out.println("Task: " + name + "; Date: " + new Date() 
+ ": The execution has finished"); 
} finally { 
lock.unlock(); 
} 
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public class LockMain { 


public static void main(String[] args) { 
ThreadPoolExecutor executor=(ThreadPoolExecutor) 
Executors.newCachedThreadPool(); 
for (int i=@; i<10; i++) { 
executor.execute(new LockTask("Task "+i)); 


} 


executor .shutdown(); 
try { 
executor.awaitTermination(1, TimeUnit.DAYS); 
} catch (InterruptedException e) { 
e.printStackTrace(); 
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<terminated> LockMain [Java Application] C:\Program Files\Java\jdk-9\bin\javaw.exe (12 abr. 2017 1:00:27 
Task: Task @; Date: Wed Apr 12 01:00:28 CEST 2017: Running the task 

Wed Apr 12 01:00:29 CEST 2017-pool-1-thread-1: Working 3 seconds 

Task: Task @; Date: Wed Apr 12 01:00:32 CEST 2017: The execution has finished 
Task: Task 1; Date: Wed Apr 12 01:00:32 CEST 2017: Running the task 

Wed Apr 12 01:00:32 CEST 2017-pool-i-thread-2: Working 7 seconds 

Task: Task 1; Date: Wed Apr 12 01:00:39 CEST 2017: The execution has finished 
Task: Task 2; Date: Wed Apr 12 01:00:39 CEST 2017: Running the task 

Wed Apr 12 01:00:39 CEST 2017-pool-1-thread-3: Working 3 seconds 

Task: Task 2; Date: Wed Apr 12 01:00:42 CEST 2017: The execution has finished 
Task: Task 4; Date: Wed Apr 12 01:00:42 CEST 2017: Running the task 

Wed Apr 12 01:00:42 CEST 2017-pool-1-thread-5: Working 1 seconds 

Task: Task 4; Date: Wed Apr 12 01:00:43 CEST 2017: The execution has finished 
Task: Task 6; Date: Wed Apr 12 01:00:43 CEST 2017: Running the task 


11.2.3 Semaphore 


信号 量 机 制 是 Edsger Dijkstra 于 1962 年 提出 的 ， 用 于 控制 对 一 个 或 多 个 
共享 资源 的 访问 。 该 机制 基于 一 个 内 部 计数 器 以 及 两 个 名 为 wait() 和 
signal() 的 方法 。 当 一 个 线程 调用 了 wait() 方 法 时 ， 如 条 内 部 计数 器 
的 值 大 于 0， 那 么 信号 量 对 内 部 计数 器 做 递减 操作 ， 并 且 访 线程 获得 对 
该 共享 资源 的 访问 。 如 果 内 部 计数 器 的 值 为 0， 那 么 线程 将 被 阻塞 ， 直 
到 某 个 线程 调用 singal() 方 法 为 止 。 当 一 个 线程 调用 了 signal() 方 法 
时 ， 信 号 量 将 会 检查 是 否 有 某 些 线程 处 于 等 待 状态 (它们 已 经 调用 了 
wait() 方 法 ) 。 如 果 没 有 线程 等 待 ， 它 将 对 内 部 计数 器 做 递增 操作 。 
如 果 有 线程 在 等 竺 信号 量 ， 就 获取 这 其 中 的 一 个 线程 ， 该 线程 的 
wait() 方 法 结束 返回 并 且 访 问 共 享 资 源 。 其 他 线程 将 继续 等 待 ， 直 到 
轮 到 自己 为 止 。 


在 Java 中 ， 信 号 量 在 Semaphore 类 中 实现 。wait() 方 法 被 称 
作 acquire()， 而 signal() 方 法 被 称 作 release()。 例 如 ， 在 本 例 中 
便 用 到 了 一 个 采用 Semaphore 类 保护 其 代码 的 任务 。 





























public class SemaphoreTask implements Runnable{ 
private Semaphore semaphore; 
public SemaphoreTask(Semaphore semaphore) { 
this .semaphore=semaphore; 
} 
@Override 
public void run() { 
try { 
semaphore. acquire(); 
CommonTask.doTask(); 
} catch (InterruptedException e) { 


e.printStackTrace() ; 
} finally { 
semaphore.release() ; 





在 主 程序 中 执行 了 10 个 任务 ， 它 们 共享 一 个 semaphore 类 。 该 类 使 用 两 
个 共享 资源 初始 化 ， 这 样 就 可 以 同时 运行 两 个 任务 。 





public static void main(String[] args) { 


Semaphore semaphore=new Semaphore(2); 
ThreadPoolExecutor executor=(ThreadPoolExecutor ) 
Executors.newCachedThreadPool (); 


for (int i=@; i<10; i++) { 
executor.execute(new SemaphoreTask(semaphore) ) ; 


} 


executor. shutdown(); 
try { 
executor.awaitTermination(1, TimeUnit.DAYS) ; 
} catch (InterruptedException e) { 
e.printStackTrace(); 








下 面 的 屏 硕 截图 展示 了 该 例 的 执行 结案 。 可 以 看 出 有 两 个 任务 在 同时 运 


<terminated> SemaphoreMain [Java Application] C:\Program Files\Java\jdk-9\bin\javaw.e 
Wed Apr 12 01:03:17 CEST 2017-pool-1-thread-2: Working 9 seconds 

Wed Apr 12 01:03:17 CEST 2017-pool-1-thread-1: Working 5 seconds 
Wed Apr 12 01:03:23 CEST 2017-pool-1-thread-3: Working 6 seconds 
Wed Apr 12 01:03:27 CEST 2017-pool-1-thread-4: Working 3 seconds 
Wed Apr 12 01:03:29 CEST 2017-pool-1-thread-5: Working 8 seconds 
Wed Apr 12 01:03:30 CEST 2017-pool-1-thread-6: Working 9 seconds 
Wed Apr 12 01:03:37 CEST 2017-pool-1-thread-7: Working 2 seconds 
Wed Apr 12 01:03:39 CEST 2017-pool-1-thread-8: Working 3 seconds 
Wed Apr 12 01:03:39 CEST 2@17-pool-1-thread-9: Working 6 seconds 
Wed Apr 12 01:03:42 CEST 2017-pool-1-thread-10: Working 9 seconds 


11.2.4 CountDownLatch2 


该 类 提供 了 一 种 等 待 一 个 或 多 个 并 发 任务 完成 的 机 制 。 它 有 一 个 内 部 计 
数 器 ， 必 须 使 用 要 等 待 的 任务 数 初始 化 。 然 后 ，await() 方 法 休 眼 调用 
线程 ， 直 到 内 部 计数 器 为 0， 并 且 使 用 countDown() 方 法 对 该 内 部 计数 
器 做 递减 操作 。 


例如 ， 在 该 任务 中 使 用 countDown( ) 方 法 对 CountDownLatch 对 象 〈 作 
为 构造 函数 的 参数 ) 的 内 部 计数 器 做 递减 操作 。 








public class CountDownTask implements Runnable { 


private CountDownLatch countDownLatch; 


public CountDownTask(CountDownLatch countDownLatch) { 
this. countDownLatch=countDownLatch; 


} 


@Override 

public void run() { 
CommonTask.doTask(); 
countDownLatch. countDown() ; 











然后 ， 在 main() 方 法 中 ， 在 执行 器 中 执行 这 些 任务 ， 并 且 使 
用 CountDownLatch 类 的 await( ) 方 法 等 待 任务 完 
成 。countDownLatch 对 象 采用 要 等 待 的 任务 数 进 行 初始 化 。 








public static void main(String[] args) { 


CountDownLatch countDownLatch=new CountDownLatch(1@) ; 


ThreadPoolExecutor executor=(ThreadPoolExecutor) 
Executors.newCachedThreadPool(); 


System.out.println("Main: Launching tasks"); 
for (int i=@; i<10; i++) { 
executor.execute(new CountDownTask(countDownLatch) ) ) ; 


} 


try { 
countDownLatch. await(); 


} catch (InterruptedException e) { 
e.printStackTrace(); 


} 


System.out. 


executor .shutdown(); 


} 








下 面 的 屏幕 截图 展现 了 本 例 的 执行 结 


<terminated> CountDownMain [Java Application] C:\Program Files\Java\jdk-9\bin\javav 
Main: Launching tasks 

Wed Apr 12 01:05:14 CEST 2017-pool-1-thread-6: Working 
Wed Apr 12 01:05:14 CEST 2017-pool-1-thread-8: Working 
Wed Apr 12 01:05:14 CEST 2017-pool-1-thread-4: Working 5 seconds 
Wed Apr 12 01:05:14 CEST 2017-pool-1-thread-2: Working 9 seconds 


9 seconds 
9 
5 
9 
Wed Apr 12 01:05:14 CEST 2@17-pool-1-thread-1: Working 5 seconds 
4 
8 
3 


seconds 


Wed Apr 12 01:05:14 CEST 2017-pool-1-thread-9: Working 4 seconds 

Wed Apr 12 01:05:14 CEST 2017-pool-1-thread-5: Working 8 seconds 

Wed Apr 12 01:05:14 CEST 2017-pool-1-thread-3: Working 3 seconds 

Wed Apr 12 01:05:14 CEST 2017-pool-1-thread-1@: Working 2 seconds 
Wed Apr 12 01:05:14 CEST 2017-pool-1-thread-7: Working 8 seconds 

Main: Tasks finished at Wed Apr 12 01:05:24 CEST 2017 


11.2.5 CyclicBarrier 类 


该 类 允许 将 一 些 任务 同步 到 某 个 共同 点 。 所 有 的 任务 都 在 该 点 等 待 ， 直 
到 任务 全 部 到 达 该 点 为 止 。 从 内 部 来 看 ， 该 类 还 管理 了 一 个 内 部 计数 
器 ， 用 于 记录 尚未 到 达 该 点 的 任务 。 当 一 个 任务 到 达 指 定点 时 ， 它 要 执 
行 await() 方 法 以 等 待 其 他 任务 。 当 所 有 任务 都 到 达 

时 ，CyclicBarrier 对 象 将 它们 唤醒 ， 这 样 就 能 够 继续 执行 。 


当 所 有 的 参与 方 都 到 达 后 ， 该 类 允许 执行 另 一 个 任务 。 为 了 实现 这 一 
扩 ， 要 在 该 对 象 的 构造 函数 中 指定 一 个 Runnable 对 象 。 


例如 ， 我 们 实现 了 下 面 的 Runnable 接 口 ， 它 采用 一 个 CyclicBarrier 
对 象 来 等 竺 其 他 任务 。 





public class BarrierTask implements Runnable { 


private CyclicBarrier barrier; 


public BarrierTask(CyclicBarrier barrier) { 
this.barrier=barrier; 


} 


@Override 
public void run() { 
System.out.println(Thread.currentThread().getName()+": Phase 1"); 
CommonTask.doTask(); 
try { 
barrier.await(); 
} catch (InterruptedException e) { 
e.printStackTrace(); 
} catch (BrokenBarrierException e) { 
e.printStackTrace(); 


} 
System.out.println(Thread.currentThread().getName()+": Phase 2"); 





我 们 还 实现 了 另 一 个 Runnable 对 象 ， 当 所 有 的 任务 都 执行 了 await() 
方法 之 后 ， 它 将 被 CyclicBarrier 执 行 。 


public class FinishBarrierTask implements Runnable { 


@Override 
public void run() { 
System.out.println("FinishBarrierTask: All the tasks have finished"); 
} 
} 





最 后 ， 在 main() 方 法 中 ， 在 一 个 执行 器 中 执行 了 10 个 任务 。 可 以 发 
现 ，CyclicBarrier 对 象 是 用 我 们 要 同步 的 任务 数 和 
FinishBarrierTask 对 象 来 初始 化 的 。 





public static void main(String[] args) { 
CyclicBarrier barrier=new CyclicBarrier(10,new FinishBarrierTask()); 


ThreadPoolExecutor executor=(ThreadPoolExecutor) 
Executors.newCachedThreadPool(); 


for (int i=@; i<10; i++) { 
executor.execute(new BarrierTask(barrier) ); 


} 


executor. shutdown(); 


try { 
executor.awaitTermination(1, TimeUnit.DAYS) ; 
} catch (InterruptedException e) { 
e.printStackTrace(); 
} 
} 








下 面 的 屏幕 截图 展示 了 本 例 的 执行 结果 。 


<terminated> BarrierMain [Java Application] C:\Program Files\Java\jdk-9\bin\javaw.ex: 
Wed Apr 12 01:07:00 CEST 2017-pool-1-thread-8: Working 7 seconds 

FinishBarrierTask: All the tasks have finished 

pool-1-thread-8: Phase 2 

pool-1-thread-9: Phase 
pool-1-thread-7: Phase 
pool-1-thread-3: Phase 
pool-1-thread-1: Phase 
pool-1-thread-5: Phase 
pool-1-thread-6: Phase 
pool-1-thread-4: Phase 
pool-1-thread-10: Phase 2 
pool-1-thread-2: Phase 2 


NNNNN WN LD 


可 以 看 到 ， 当 所 有 的 任务 都 到 达 调 用 await() 方 法 的 公共 点 时 ， 将 执 
行 FinishBarrierTask， 然 后 所 有 的 任务 都 继续 其 执行 过 程 。 


11.2.6 CompletableFuturex 


这 是 在 Java 8 并 发 API 中 引入 的 一 种 同步 机 制 ， 在 Java 9 中 又 有 了 一 些 新 
方法 。 它 扩展 了 Future 机 制 ， 为 其 赋予 了 更 强 的 功能 和 更 大 的 灵活 
性 。 它 允许 实现 一 个 事件 驱动 的 模型 ， 链 接 那 些 只 有 当 其 他 任务 执行 完 
毕 后 才 执 行 的 任务 。 与 Future 接 口 相同 ，Comp1letableFuture 也 必须 
采用 操作 要 返回 的 结果 类 型 进行 参数 化 。 和 Future 对 象 一 

样 ，CompletableFuture 类 表示 的 是 异步 计算 的 结果 ， 只 不 过 
CompletableFuture 的 结果 可 以 由 任意 线程 确立 。 当 计算 正常 结束 
时 ， 该 类 采用 complete( ) 方 法 确定 结果 ， 而 当 计 算出 现 异 常 时 ， 则 采 
用 completeExceptionally() 方 法 。 如 果 两 个 或 者 多 个 线程 调用 同 
一 CompletableFuture 的 complete() 方 法 

或 completeExceptionally() 方 法 ， 那 么 只 有 第 一 个 调用 会 起 作用 。 











首先 ， 可 以 使 用 构造 函数 创建 CompletableFuture 对 象 。 在 本 例 中 ， 
你 需要 使 用 前 面 介绍 的 complete() 方 法 确定 任务 结果 。 不 过 ， 也 可 以 
使 用 runAsync() 方 法 或 者 supplyAsync( ) 创 建 一 个 任务 结 

果 。runAsync() 方 法 执行 一 个 Runnable 对 象 并 且 返 回 
CompletableFuture<Void>， 这 样 计算 就 不 能 再 返回 任何 结果 

了 。supplyAsync() 方 法 执行 了 Supplier 接 口 的 一 个 实现 ， 它 采用 本 
次 计算 要 返回 的 类 型 进行 参数 化 。 该 Supplier 接 口 提供 了 get() 方 法 。 
在 该 方法 中 ， 需 要 包含 任务 代码 并 且 返 回 任务 生成 的 结果 。 在 本 例 
中 ，CompletableFuture 的 结果 将 作为 Supplier 接 口 的 结果 。 


该 类 提供 了 大 量 方 法 ， 人 允许 通 过 实现 一 个 事件 驱动 的 模型 组 织 任务 的 执 
行 顺序 ， 一 个 任务 只 有 在 其 之 前 的 任务 完成 之 后 才 会 开始 。 这 其 中 包括 
如 下 方法 。 


e thenApplyAsync(): 该 方法 接收 Function 接 口 的 一 个 实现 〈 可 以 
表示 为 一 个 lambda 表 达 式 ) 作为 参数 。 该 函数 将 在 调 
用 CompletableFuture 完 成 后 执行 。 该 方法 将 返回 
CompletableFuture 以 获得 Fuction 的 结果 。 

e thenComposeAsync(): 该 方法 和 thenApplyAsync() 方 法 相似 ， 
但 是 当 供 给 函数 也 返回 CompletableFuture 时 很 有 用 。 

e thenAcceptAsync(): 该 方法 和 前 一 个 方法 相似 ， 只 不 过 其 参数 
是 Consumer 接 口 的 一 个 实现 (也 可 以 描述 为 一 个 lambda 表 达 
式 ) ; 在 这 种 情况 下 ， 计 算 不 会 返回 结果 。 

e thenRunAsync(): 该 方法 和 前 一 个 等 价 ， 只 不 过 在 这 种 情况 下 接 
收 一 个 Runnable 对 象 作为 参数 。 

e thenCombineAsync(): 该 方法 接收 两 个 参数 。 第 一 个 参数 为 另 一 
个 CompletableFuture 实 例 ， 另 一 个 参数 是 BiFunction 接 口 的 一 
个 实现 《可 描述 为 一 个 lambda 函 数 ) 。 该 BiFunction 接 口 实现 将 
在 两 个 CompletableFuture 〈 当 前 调用 的 和 参数 中 的 ) 都 完成 后 
执行 。 该 方法 将 返回 CompletableFuture 以 获取 BiFunction 的 结 
果 。 

e runAfterBothAsync(): 该 方法 接收 两 个 参数 。 第 一 个 参数 为 另 
一 个 CompletableFuture， 而 第 二 个 参数 为 Runnable 接 口 的 一 个 
实现 ， 它 将 在 两 个 completableFuture (当前 调用 的 和 参数 中 
的 ) 都 完成 后 执行 。 

e runAfterEitherAsync(): 该 方法 与 前 一 个 方法 等 价 ， 只 不 过 当 
其 中 一 个 CompletableFuture 对 象 完 成 之 后 才 会 执行 Runnable 任 























务 。 

e al10f(): 该 方法 接收 CompletableFuture 对 象 的 一 个 变量 列表 作 
为 参数 。 它 将 返回 一 个 CompletableFuture<Void> 对 象 ， 而 该 对 
象 将 在 所 有 的 CompletableFuture 对 象 都 完成 之 后 返回 其 结果 。 

e anyOf(): 该 方法 和 前 一 个 方法 等 价 ， 只 是 返回 的 
CompletableFuture 对 象 会 在 其 中 一 个 CompletableFuture 对 象 
完成 之 后 返回 其 结果 。 


最 后 ， 如 果 想 要 获取 CompletableFuture 返 回 的 结果 ， 可 以 使 用 get() 
方法 或 者 join() 方 法 。 这 两 个 方法 都 会 阻塞 调用 线程 ， 直 

到 CompletableFuture 完 成 之 后 返回 其 结果 。 这 两 个 方法 之 间 的 主要 
区 别 在 于 ，get() 方 法 抛 出 ExecutionException (这 是 一 个 校 验 异 
常 ) ， 而 join() 方 法 抛 出 RuntimeException (这 是 一 个 未 校 验 异 
常 ) 。 因 此 ， 在 不 抛 出 异常 的 lambda〈 例 如 Supplier、Consumer 

或 Runnable) 内 部 ， 使 用 join() 方 法 更 为 方便 。 


前 面 提 到 的 大 多 数 方法 都 有 Async 后 级 。 这 意味 着 这 些 方法 将 使 

用 ForkJoinPool.commonPool 实 例 以 并 发 方式 执行 。 这 些 方法 都 有 不 
带 Async 后 级 的 版 本 ， 它 们 将 以 串 行 方 式 执行 (这 就 是 说 ， 与 执 

行 CompletableFuture 的 线程 是 同一 个 ) ; 还 有 带 Async 后 缀 并 且 以 一 
个 执行 器 实例 作为 额外 参数 的 版 本 。 这 种 情况 

下 ，CompletableFuture 将 在 作为 参数 传递 的 执行 器 中 以 异步 方式 执 

人 


Java 9 增加 了 一 些 方法 ， 为 CompletableFuture 类 赋予 了 更 强 的 功能 。 


e defaultExecutor(): 访 方 法 用 于 返回 并 不 接收 Executor 作 为 参 
数 的 那些 异步 操作 的 默认 执行 嚣 。 通 常 ， 它 将 
是 ForkJoinPool.commonPool() 方 法 的 返回 值 。 

。 copy(): 该 方法 创建 CompletableFuture 对 象 的 一 个 副本 。 如 果 
原来 的 CompletableFuture 正 常 完成 ， 则 副本 方法 也 将 正常 完成 
并 返回 相同 的 值 。 如 果 原 来 的 completableFuture 异 常 完成 ， 则 
副本 方法 也 异常 完成 ， 并 且 抛 出 CompletionException 异 常 。 

e completeAsync(): 该 方法 接收 一 个 Supplier 对 象 作为 参数 (还 
可 以 选择 Executor) 。 借 助 Supplier 的 结果 完 
成 CompletableFuture。 

e orTimeout(): 该 方法 接收 一 段 时 延 (一段 时 间 和 一 
个 TimeUnit) 。 如 果 CompletableFuture 在 这 段 时 间 之 后 没有 完 























成 ， 那 么 抛 出 TimeoutException 异 常 并 异常 完成 。 

e completeOnTimeout(): 该 方法 与 上 一 个 方法 相似 ， 只 不 过 它 在 
作为 参数 的 值 的 范围 内 正常 完成 

e delayedExecutor(): 该 方法 返回 一 个 Executor， 该 执行 器 在 执 
行 指定 时 延 之 后 执行 某 一 任务 。 


使 用 CompletableFuture 类 
在 本 例 中 ， 你 将 学 会 如 何 使 用 CompletableFuture 类 以 并 发 方式 执行 


一 些 异 步 任 务 。 我 们 将 用 由 亚马逊 的 20 000 个 商品 构成 的 集合 实现 下 面 
的 任务 树 。 











首先 要 使 用 这 些 范例 〈 商 品 ) 。 然 后 执行 四 个 并 发 任务 。 第 一 个 任务 是 
搜索 商品 。 当 搜索 完成 后 ， 将 结果 写 入 一 个 文件 。 第 二 个 任务 是 获得 评 
价 最 高 的 商品 。 第 三 个 任务 是 获得 销量 最 佳 的 丙 品 。 当 这 两 个 任务 完成 
之 后 ， 将 使 用 为 一 个 任务 将 它们 的 信息 连接 起 来 。 最 后 ， 第 四 个 任务 是 
获取 购买 过 商品 的 用 户 列表 。main( ) 方 法 将 等 待 所 有 任务 结束 ， 然 后 


























输出 结果 。 
下 和 面 看 看 实现 过 程 的 细节 。 
。 辅助 任务 


在 本 例 中 ， 将 用 到 一 些 辅助 任务 。 第 一 个 任务 是 LoadTask， 用 于 
从 磁盘 加 载 商 品 信息 并 且 返 回 一 个 Product 对 象 列 表 。 








public class LoadTask implements Supplier<List<Product>> { 
private Path path; 


public LoadTask (Path path) { 
this.path=path; 

} 

@Override 

public List<Product> get() { 
List<Product> productList=null; 
try { 


productList = Files.walk(path, FileVisitOption.FOLLOW_LINKS) 
-parallel().filter(f -> f.toString() 
-endsWith(".txt")).map(ProductLoader: : load) 
-collect (Collectors.toList()); 
} catch (IOException e) { 
e.printStackTrace(); 


} 


return productList; 
} 
} 





该 任务 实现 了 Supplier 接 口 ， 将 其 作为 CompletableFuture 执 
i ial 它 使 用 一 个 流 来 处 理 和 解析 所 有 包含 商品 列表 的 
文件 。 


第 二 个 任务 是 SearchTask， 该 任务 将 实现 对 Product 对 象 列表 的 
: Bratt 名 称 中 含有 某 一 单词 的 对 象 。 访 任务 是 Function 接 
口 的 一 个 实现 。 


public class SearchTask implements Function<List<Product>, 
List<Product>> { 





private String query; 


public SearchTask(String query) { 
this.query=query ; 
} 


@Override 
public List<Product> apply(List<Product> products) { 
System.out.println(new Date()+": CompletableTask: start"); 
List<Product> ret = products.stream() 
.filter(product -> product.getTitle() 
.toLowerCase().contains(query)) 
.collect(Collectors.toList()); 
System.out.println(new Date()+": CompletableTask: end: 
"+ret.size()); 


return ret; 


} 








它 接 收 含 有 全 部 商品 信息 的 List<cProduct>， 返 回 一 个 含有 满足 标 
准 的 商品 的 List<Product>。 从 内 部 来 看 ， 它 基于 输入 列表 创建 了 
流 ， 对 其 进行 秘 选 ， 并 有 旦 将 结果 收集 到 男 一 个 列表 中 。 


最 后 ，WriteTask 将 搜索 任务 中 获得 的 商品 写 入 一 个 File 对 象 。 在 
我 们 的 例子 中 生成 了 一 个 HTML 文 件 ， 不 过 也 可 以 以 想 要 的 格式 输 
出 这 一 信息 。 该 任务 实现 了 Consumer 接 口 ， 这 样 它 的 代码 就 必须 

采用 如 下 形式 。 


public class WriteTask implements Consumer<List<Product>> { 


@Override 


public void accept(List<Product> products) { 
// 实现 部 分 省 略 
} 
} 




















main() 方 法 


我 们 在 main( ) 方 法 中 对 这 些 任务 进行 了 组 织 。 首 先 ， 使 

用 CompletableFuture 类 的 supplyAsync() 方 法 执行 LoadTask。 
在 LoadTask 开 始 之 前 将 等 得 3 秒 ， 以 展示 delayExecutor() 方 法 如 
H LIFs 


public class CompletableMain { 


public static void main(String[] args) { 
Path file = Paths.get("data","category"); 
System.out.println(new Date() + ": Main: Loading products 


after three seconds...."); 
LoadTask loadTask = new LoadTask(file) ; 


CompletableFuture<List<Product>>loadFuture = CompletableFuture 
. supplyAsync(loadTask, CompletableFuture 
.delayedExecutor(3, TimeUnit.SECONDS) ) ; 





然后 ， 有 了 生成 的 CompletableFuture， 就 可 以 在 加 载 任务 完成 
之 后 使 用 thenApplyAsync() 执 行 搜 索 任务 。 


System.out.println(new Date() + ": Main: Then apply for 
search"); 


CompletableFuture<List<Product>> completableSearch = loadFuture 
.thenApplyAsync(new SearchTask("love")); 





一 旦 搜索 任务 完成 ， 就 要 将 执行 结果 输出 到 一 个 文件 。 由 于 该 任务 
并 不 返回 结果 ， 我 们 使 用 thenAcceptAsync() 方 法 。 


CompletableFuture<Void> completableWrite = completableSearch 
.thenAcceptAsync(new WriteTask()); 


completableWrite.exceptionally(ex -> { 
System.out.println(new Date() + ": Main: Exception " 
+ ex.getMessage()); 
return null; 


}); 


如 果 写 入 任务 抛 出 异常 ， 那 么 使 用 exceptionally() 方 法 指定 要 
做 的 事项 。 


然后 ， 在 completableFuture 对 象 上 使 用 thenApplyAsync() 方 法 
执行 该 任务 ， 以 便 获 取 购 买 某 一 了 商品 的 用 户 列表 。 将 该 任务 描述 为 
一 个 lambda 表 达 式 。 请 注意 ， 该 任务 并 不 会 与 搜索 任务 并 行 执行 。 














System.out.println(new Date() + ": Main: Then apply for users"); 


CompletableFuture<List<String>> completableUsers = loadFuture 


.thenApplyAsync(resultList -> { 


System.out.println(new Date()+ ": Main: Completable users: start"); 
List<String> users = resultList.stream() 
.flatMap(p -> p.getReviews().stream()) 
.map(review -> review.getUser()) 


.distinct() 
.collect(Collectors.toList()); 
System.out.println(new Date() + ": Main: Completable users: end"); 


return users; 


}); 





并 行 处 理 这 些 任 务 时 ， 我 们 还 使 用 thenApplyAsync() 方 法 执行 了 
该 任务 ， 以 便 碍 找 评 价 最 高 的 商品 和 销量 最 佳 的 商品 。 我 们 也 使 用 
一 个 lambda 表 达 式 定义 了 这 些 任 务 。 





System.out.println(new Date() + ": Main: Then apply for best 
rated product...."); 


CompletableFuture<Product> completableProduct = loadFuture 


.thenApplyAsync(resultList -> { 
Product maxProduct = null; 


double maxScore = 0.0; 


System.out.println(new Date() + ": Main: Completable product: 


start"); 
for (Product product : resultList) { 
if (!product.getReviews().isEmpty()) { 
double score = product.getReviews().stream() 
.mapToDouble(review -> review. getValue() ) 
.average().getAsDouble(); 
if (score > maxScore) { 
maxProduct = product; 
maxScore = score; 


} 
} 


System.out.println(new Date() + ": Main: Completable product : end") 
return maxProduct; 


}); 


System.out.println(new Date() + ": Main: Then apply for best 


selling product...."); 
CompletableFuture<Product> completableBestSellingProduct = 


loadFuture.thenApplyAsync(resultList -> { 
System.out.println(new Date() + ": Main: Completable best 
selling: start"); 
Product bestProduct = resultList.stream() 
.min(Comparator.comparingLong 
(Product: :getSalesrank) ) 
-orElse(null); 
System.out.println(new Date() + ": Main: Completable best 
selling: end"); 
return bestProduct; 


}); 





如 前 所 述 ， 我 们 想 将 前 两 个 任务 的 结果 连 到 一 起 。 可 以 使 
用 thenCombineAsync() 方 法 完成 这 一 工作 ， 用 它 指定 一 个 将 在 这 
两 个 任务 完成 之 后 执行 的 任务 。 


CompletableFuture<String> completableProductResult = 
completableBestSellingProduct 
. thenCombineAsync( 
completableProduct, (bestSellingProduct, 
bestRatedProduct) -> { 
": Main: Completable product 
result: start"); 
ret = "The best selling product is " 
+ bestSellingProduct.getTitle() + "\n"; 
"The best rated product is " 
+ bestRatedProduct.getTitle(); 
.out.println(new Date() + ": Main: Completable product 
result: end"); 


.out.println(new Date() + 


ret; 





最 后 ， 使 用 completeOnTimeout() 方 法 预 留 1 秒 钟 ， 以 等 待 
completableProductResult 任 务 完成 。 如 果 它 在 1 秒 之 内 没有 完 
成 ， 那 么 完成 CompletableFuture， 并 得 出 结果 TimeO0ut。 然 后 ， 
使 用 all0f() 方 法 和 join() 方 法 等 待 最 终 任务 结束 ， 并 且 输 出 使 
用 get() 方 法 获得 的 结果 。 





System.out.println(new Date() + ": Main: Waiting for results"); 


completableProductResult.completeOnTimeout("TimeOut", 1, 
TimeUnit.SECONDS) ; 
CompletableFuture<Void> finalCompletableFuture = CompletableFuture 


.allOf(completableProductResult, completableUsers, 
completableWrite) ; 
finalCompletableFuture. join(); 


try { 
System.out.println("Number of loaded products: 
+ loadFuture.get().size()); 
System.out.println("Number of found products: 
+ completableSearch.get().size()); 
System.out.println("Number of users: " 
+ completableUsers.get().size()); 
System.out.println("Best rated product: " 
+ completableProduct.get().getTitle()); 
System.out.println("Best selling product: " 
+ completableBestSellingProduct.get() 
.getTitle()); 
System.out.println( "Product result: 
"+completableProductResult.get()); 
} catch (InterruptedException | ExecutionException e) { 
e.printStackTrace(); 


} 








在 下 面 的 屏幕 截图 中 ， 可 以 看 到 本 例 的 执行 结果 。 


<terminated> CompletableMain [Java Application] C:\Program Files\Java\jdk-9\bin\javaw.exe (12 abr. 2( 
Wed Apr 12 @1:37:12 CEST 2017: Main: Loading products after three seconds.... 
Wed Apr 12 01:37:13 CEST 2017: Main: Then apply for search.... 

Wed Apr 12 01:37:13 CEST 2017: Main: Then apply for users.... 

Wed Apr 12 01:37:13 CEST 2017: Main: Then apply for best rated product.... 
Wed Apr 12 @1:37:13 CEST 2017: Main: Then apply for best selling product.... 
Wed Apr 12 @1:37:13 CEST 2017: Main: Waiting for results 

Wed Apr 12 @1:37:16 CEST 2017: LoadTast: starting.... 

Wed Apr 12 01:38:19 CEST 2017: LoadTast: end 

Wed Apr 12 @1:38:19 CEST 2017: Main: Completable best selling: start 

Wed Apr 12 01:38:19 CEST 2017: CompletableTask: start 

Wed Apr 12 01:38:19 CEST 2017: Main: Completable product: start 

Wed Apr 12 @1:38:19 CEST 2017: Main: Completable best selling: end 

Wed Apr 12 01:38:19 CEST 2017: Main: Completable users: start 

Wed Apr 12 01:38:19 CEST 2017: CompletableTask: end: 208 

Wed Apr 12 @1:38:19 CEST 2017: WriteTask: start 

Wed Apr 12 @1:38:19 CEST 2017: WriteTask: end 

Wed Apr 12 @1:38:19 CEST 2017: Main: Completable product: end 

Wed Apr 12 @1:38:19 CEST 2017: Main: Completable users: end 

Number of loaded products: 20000 

Number of found products: 208 

Number of users: 158288 

Best rated product: Patterns of Preaching 

Best selling product: The Da Vinci Code 

Product result: TimeOut 

Wed Apr 12 01:38:19 CEST 2017: Main: end 





首先 ，main() 方 法 执行 所 有 配置 并 等 待 任务 完成 。 这 些 任 务 按 照 
配置 的 顺序 执行 。 可 以 看 到 ，LoadTask 在 三 秒 钟 之 后 启动 ， 以 及 
completableProductResult 返 回 字 符 串 Time0ut， 因 为 它 在 1 秒 
钟 之 内 还 没有 完成 。 


11.3 ”小结 


本 章 回 顾 了 所 有 并 发 应 用 程序 均 具备 的 两 个 组 成 部 分 。 第 一 个 组 成 部 分 
是 数据 结构 。 每 一 个 程序 都 要 使 用 数据 结构 将 待 处理 的 信息 存放 到 内 存 
中 。 我 们 介绍 了 并 发 数据 结构 ， 对 Java 8 并 发 API 中 引入 的 一 些 新 功能 进 
行 了 详细 介绍 ， 这 主要 涉及 ConcurrentHashMap 类 和 实现 Collection 
接口 的 类 。 


第 二 个 组 成 部 分 是 同步 机 制 ， 它 可 以 在 多 个 并 发 任务 对 数据 进行 修改 时 
保护 数据 ， 而 且 如 果 必 要 ， 还 可 以 控制 任务 的 执行 顺序 。 本 章 探讨 了 同 
步 机 制 ， 对 CompletableFuture 进 行 了 详细 介绍 ， 它 是 Java 8 并 发 API 
中 的 一 个 新 特性 。 


下 一 章 将 介绍 如 何 测 试 以 及 监视 并 发 应 用 程序 。 











第 12 间 测试 与 监视 并 友 应 用 程 
应 


软件 测试 在 每 个 开发 过 程 中 都 是 一 项 重要 任务 。 每 个 应 用 程序 都 必须 满 
足 最 终 用 户 的 需求 ， 而 测试 就 是 对 此 进行 验证 的 阶段 。 应 用 程序 必须 在 
可 接受 的 时 间 里 按照 指定 格式 生成 有 效 结 果 。 测 试 阶段 的 主要 目标 是 尽 
可 能 多 地 检测 软件 中 的 错误 并 进行 修正 ， 以 提高 产品 的 整体 质量 。 


在 传统 的 瀑布 模型 中 ， 测 试 阶段 是 在 开发 过 程 达 到 非常 高 级 的 阶段 后 才 
开始 的 。 但 是 现在 ， 越 来 越 多 的 开发 团队 开始 采用 敏捷 方法 论 ， 将 测试 
阶段 整合 到 开发 阶段 之 中 。 其 主要 目的 就 是 尽 可 能 快 地 测试 软件 ， 以 便 
在 开发 过 程 中 尽早 发 现 错误 。 


Java 中 有 很 多 可 以 自动 执行 测试 的 工具 ， 如 JUnit、TestNG 等 。 还 有 一 些 
像 JMeter 这 样 的 工具 ， 可 以 帮助 你 测试 自己 的 应 用 程序 可 以 同时 供 多 少 
用 户 使 用 。 还 有 其 他 像 Selenium 这 样 的 工具 ， 可 用 来 在 Web 应 用 程序 中 
进行 集成 测试 。 


在 并 发 应 用 程序 中 ， 测 试 阶段 更 加 重要 且 更 加 困难 。 你 可 以 同时 运行 两 
个 或 者 多 个 线程 ， 但 是 无 法 控制 其 执行 顺序 。 可 以 对 一 个 应 用 程序 做 大 
量 测 试 ， 但 是 不 能 保证 不 同 线程 以 某 种 顺序 执行 时 不 会 导致 竞争 条 件 或 
死 锁 。 这 种 情形 也 导致 了 错误 再 现 比 较 困 难 。 你 会 遇 到 仅 在 特定 环境 下 
出 现 的 错误 ， 这 样 就 很 难 找到 造成 该 错误 的 真实 原因 。 本 章 将 介绍 下 述 
主题 ， 以 帮助 你 测试 并 发 应 用 程序 。 

。 监视 并 发 对 象 。 

。 监视 并 发 应 用 程序 。 

。 测试 并 发 应 用 程序 。 





























12.1 监视 并 发 对 象 


Java 并 有 友 API 提 供 的 大 多 数 并 发 对 象 都 含有 可 获知 该 对 象 状 态 的 方法 。 
这 些 状态 包括 当前 正在 执行 的 线程 数 、 被 阻 断 且 等 待 某 一 条 件 的 线程 
数 、 执 行 的 任务 数 等 。 本 节 ， 你 将 学 习 要 用 到 的 最 重要 的 方法 ， 以 及 可 
通过 这 些 方 法 获取 到 的 信息 。 这 些 信息 对 于 检测 导致 错误 的 原因 很 有 


用 ， 





尤其 是 在 错误 仅 在 某 些 罕见 条 件 下 发 生 之 时 。 


12.1.1 监视 线程 


线程 





是 Java 并 发 API 中 最 基本 的 元 素 。 它 允许 你 执行 一 个 原始 任务 。 当 


线程 开始 执行 时 ， 你 可 以 决定 执行 什么 样 的 代码 (扩展 Thread 类 或 者 
实现 Runnable 接 口 ) ， 以 及 如 何 使 其 与 应 用 程序 的 其 他 任务 同 
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Thread 类 提供 了 一 些 可 以 获取 线程 信息 的 方法 。 其 中 最 有 用 的 一 


些 方法 如 下 。 





getId(): 该 方法 返回 线程 的 标识 符 。 标 识 符 是 一 个 long 型 的 正 
数 ， 而 且 是 唯一 的 。 

getName(): 该 方法 返回 线程 的 名 称 。 默 认 情 况 下 ， 其 命名 格式 
为 Thread-xxx， 不 过 线程 名 称 可 以 在 构造 函数 中 修改 ， 也 可 以 使 
用 setName( ) 方 法 修改 。 

getPriority(): 该 方法 返回 线程 的 优先 级 。 默 认 情 况 下 ， 所 有 线 
程 的 优先 级 都 为 5， 但 可 以 使 用 setPriority() 方 法 来 更 改 。 优 先 
较 高 的 线程 比 优先 级 较 低 的 线程 更 容易 被 优先 选用 。 

getState(): 该 方法 返回 线程 的 状态 。 它 返回 Enum 

Thread .State 中 的 一 个 值 ， 且 其 取 值 可 以 

为 NEW、RUNNABLE、BLOCKED、WAITING、 TIMED_WAITING 和 和 
TERMINATED。 可 查看 API 文 档 来 了 解 每 个 状态 的 真实 含义 。 
getStackTrace(): 访 方 法 将 线程 的 调用 栈 作为 一 

个 StackTraceElement 对 象 数 组 返回 。 可 以 打印 该 数组 ， 以 了 解 
该 线程 被 做 了 哪些 调用 。 


例如 ， 可 以 使 用 如 下 这 样 一 段 代码 来 获取 与 某 个 线程 相关 的 信息 。 





System.out.println (">k kkk kkk kkk k kkk kk Kk ) ， 
System.out.println("Id: " + thread.getId()); 


System.out .println("Name: ”+ thread.getName()) ; 

System.out.println("Priority: " + thread.getPriority()); 

System.out.println("Status: " + thread.getState()); 

System.out.println("Stack Trace"); 

for(StackTraceElement ste : thread.getStackTrace()) { 
System.out.println(ste) ; 


} 





通过 这 段 代 码 ， 可 以 得 到 如 下 输出 。 
<terminated> MainThread [Java Application] C:\Program Files\Java\jdk-9\bin\javaw.exe (17 abr. 2017 22:59:04) 


Id: 13 

Name: Thread-@® 

Priority: 5 

Status: TIMED_WAITING 

Stack Trace 

java. lang. Thread.sleep(java.base@9-ea/Native Method) 

java. lang. Thread.sleep( java. base@9-ea/Thread. java: 34@) 
java.util.concurrent.TimeUnit.sleep(java.base@9-ea/TimeUnit. java:4@1) 

com. javferna.packtpub.book.mastering.test.common.CommonTask.run(CommonTask. java:13) 
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Id: 13 

Name: Thread-@ 
Priority: 5 
Status: TERMINATED 
Stack Trace 
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12.1.2 ”监视 锁 


锁 是 Java 并 发 API 提 供 的 基本 同步 元 素 之 一 。 它 在 Lock 接 口 和 
ReentrantLock 类 中 定义 。 基 本 上 ， 锁 允许 你 在 代码 中 定义 一 个 临界 
段 ， 不 过 ， 锁 机 制 要 比 synchronized 关 键 字 等 其 他 机 制 更 加 灵活 〈 例 
如 ， 你 可 以 针对 读 写 操作 定义 不 同 的 锁 ， 或 者 定义 非 线性 的 临界 
段 ) 。ReentrantLock 类 还 有 一 些 方法 可 以 帮助 你 获知 Lock 对 象 的 状 
e getOwner(): 该 方法 返回 一 个 Thread 对 象 ， 其 中 含有 当前 加 锁 的 
线程 ， 也 就 是 说 ， 该 线程 正在 执行 临界 段 。 
e hasQueuedThreads(): 该 方法 返回 一 个 布尔 值 ， 它 表示 是 否 有 线 
程 等 待 获 取 锁 。 





e getQueueLength(): 该 方法 返回 一 个 jnt 值 ， 它 表示 当前 等 待 获 
取 锁 的 线程 数 。 

e getQueuedThreads(): 该 方法 返回 一 个 Collection<Thread> 对 
象 ， 其 中 含有 当前 等 竺 获取 锁 的 Thread 对 象 。 

e isFair(): 该 方法 返回 一 个 布尔 值 ， 表 示 公 平 属性 的 状态 。 该 属 
性 的 值 用 于 判定 下 一 个 获取 锁 的 线程 。 可 查看 Java API 相 关 信息 来 
详细 了 解 这 一 功能 。 

° RR 该 方法 返回 一 个 布尔 值 ， 表 示 锁 是 否 归 某 个 线程 所 











e getHoldCount(): 该 方法 返回 一 个 int 值 ， 访 值 表示 当前 线程 获 
取 到 锁 的 次 数 。 如 果 当 前 线程 并 没有 得 到 锁 ， 则 返回 值 为 0。 人 否 
则 ， 对 于 当前 没有 调用 相 匹 配 的 unlock() 方 法 的 线程 ， 该 方法 将 
返回 lock() 方 法 在 该 线程 中 被 调用 的 次 数 。 
getOwner() 方 法 和 getQueuedThreads() 方 法 是 受 保 护 的 ， 因 此 不 能 
直接 访问 。 要 解决 这 一 问题 ， 你 可 以 实现 自己 的 Lock 类 ， 并 且 实 现 能 够 
提供 这 些 信息 的 方法 。 


例如 ， 你 可 以 定义 一 个 名 为 MyLock 的 类 ， 如 下 所 示 : 








public class MyLock extends ReentrantLock { 


private static final long serialVersionUID = 8025713657321635686L; 


public String getOwnerName() { 
if (this.getOwner() == null) { 
return "None"; 


} 
return this.getOwner().getName() ; 


} 


public Collection<Thread> getThreads() { 
return this. getQueuedThreads() ; 


} 
} 


这 样 ， 可 以 使 用 一 段 类 似 下 面 的 代码 来 获取 与 某 个 锁 相 关 的 全 部 信息 。 








System.out.println("Owner : " + lock.getOwnerName()); 
System.out.println("Queued Threads: " + lock.hasQueuedThreads()); 


if (lock.hasQueuedThreads()) { 
System.out.println("Queue Length: " + lock.getQueueLength()) ; 
System.out.println("Queued Threads: "); 
Collection<Thread> lockedThreads = lock.getThreads(); 
for (Thread lockedThread : lockedThreads) { 
System.out.println(lockedThread.getName() ) ; 
} 
} 
System.out.println("Fairness: " + lock.isFair()); 
System.out.println("Locked: " + lock.isLocked()); 
System.out.println("Holds: "+lock.getHoldCount()); 
System.out printing FERRER E TEE RARER EAR EAEAEN TNs 





通过 该 代码 块 ， 你 将 得 到 类 似 如 下 所 示 的 输出 结果 。 


<terminated> MainLock [Java Application] C:\Program Files\Java\jdk-$\bin" 
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Owner : pool-1-thread-2 
Queued Threads: true 
Queue Length: 3 

Queued Threads: 
pool-1-thread-4 
pool-1-thread-18 
pool-1-thread-7 
Fairness: false 

Locked: true 

Holds: @ 
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12.1.3 ”监视 执行 器 


执行 器 框架 是 这 样 一 种 机 制 : 它 允 许 你 执行 并 发 任务 而 无 须 考 虑 线程 的 
创建 和 管理 问题 。 你 可 以 将 任务 发 送 给 执行 器 。 它 有 一 个 内 部 线程 池 ， 

执行 任务 时 可 以 再 利用 。 执 行 器 也 提供 了 一 种 机 制 来 控制 任务 所 消耗 的 
资源 ， 这 样 你 就 无 须 担心 系统 过 载 。 执 行 器 框架 提供 了 Executor 接 口 

和 ExecutorService 接 口 ， 以 及 一 些 实现 这 些 接 口 的 类 。 这 其 中 最 基 

本 的 类 是 ThreadPoolExecutor， 它 提供 了 一 些 方法 ， 可 以 帮助 你 获知 
执行 器 的 状态 。 


° Oe i 该 方法 返回 执行 器 中 正在 执行 任务 的 线程 








e getCompletedTaskCount(): 该 方法 返回 执行 器 已 经 执行 且 已 完 
成 执行 的 任务 数 。 

e getCorePoolSize(): 该 方法 返回 核心 线程 数目 。 这 一 数目 决定 
了 线程 池 中 的 最 小 线程 数 。 即 使 执行 器 中 没有 任务 运行 ， 线 程 池 中 
的 线程 数 也 不 会 少 于 该 方法 所 返回 的 数目 。 

e getLargestPoolSize(): 该 方法 返回 执行 器 线程 池 已 经 同时 执行 
过 的 最 大 线程 数 。 

e getMaximumPoolSize(): 该 方法 返回 执行 器 线程 池 中 同时 可 以 存 
在 的 最 大 线程 数 。 

e getPoolSize(): 该 方法 返回 线程 池 中 当前 的 线程 数 。 

e getTaskCount(): 该 方法 返回 已 经 发 送 给 执行 器 的 任务 数 ， 包 括 
正在 等 待 、 运 行 中 和 已 经 完成 的 任务 。 

e isTerminated(): 如 果 调 用 了 shutdown() 或 shutdownNow() 方 
法 并 且 执 行 器 已 完成 了 所 有 未 完成 任务 的 执行 ， 则 该 方法 返回 
true， 人 否则 返回 false。 

e isTerminating(): 如 果 调 用 了 shutdown() 或 shutdownNow() 方 
法 ， 但 是 执行 器 仍然 在 执行 任务 ， 则 该 方法 返回 true。 


可 以 使 用 类 似 如 下 的 代码 片段 获取 有 关 ThreadPoolExecutor 的 信息 。 





System.out.println (CORA EAE CII RI RE OR A FOR ACR AIAG EEE EE AOR ACE AE ARE 


System.out.println("Active Count: "+executor.getActiveCount()); 
System.out.println("Completed Task Count: "+ 

executor. getCompletedTaskCount()); 

System.out.println("Core Pool Size:"+ executor.getCorePoolSize()); 
System.out.println( "Largest Pool Size: "+ executor.getLargestPoolSize()); 


System.out.println( "Maximum Pool Size: "+ executor.getMaximumPoo1Size()) ; 
System.out.println("Pool Size: "+executor.getPoolSize()); 
System.out.println("Task Count: "+executor.getTaskCount()); 
System.out.println("Terminated: "+executor.isTerminated()); 


System.out.println("Is Terminating: "+executor.isTerminating()); 
System.out.printin 人 





通过 这 段 代码 ， 可 以 得 到 类 似 如 下 的 输出 。 


<terminated> MainExecutor [Java Application] C:\Program Files\Java\jdk-9\bin\ja. 
KKKKKKKKKKKKKKKAKKKKHKKKKKKKKKKKKKKKKKKKKK KKK 

Active Count: 3 

Completed Task Count: 7 

Core Pool Size: @ 

Largest Pool Size: 10 

Maximum Pool Size: 2147483647 

Pool Size: 10 

Task Count: 10 

Terminated: false 


Is Terminating: false 
KKKKKKKKKKKKHKKKKKKHKHKKKKKKHKKKKKKKKKKKHKKEKHK 


KKEKKKKKKKKKKKKKKKKKKKKKKKKKKRKKK KKK KK KKK KKH 


Active Count: 2 

Completed Task Count: 8 

Core Pool Size: 9 

Largest Pool Size: 10 
Maximum Pool Size: 2147483647 
Pool Size: 10 

Task Count: 10 

Terminated: false 


Is Terminating: false 
SH 2 ie ie ie fe ee 2c ee ee ee ee ee ee EE ee OE 


12.1.4 监视 Forky/Join 框 架 


Fork/Join 框 如 提供 了 一 种 特殊 的 执行 器 ， 主 要 针对 那些 可 以 使 用 分 治 

方法 实现 的 算法 。 它 基于 工作 狠 取 算法 。 创 建 一 个 用 于 处 理 整 个 问题 的 
初始 任务 ， 该 任务 再 创建 其 他 子 任务 ， 每 个 子 任务 都 处 理 问 题 的 一 部 分 
(相对 较 小 ) ， 并 且 等 竺 任务 执行 完毕 。 分 割 后 的 每 个 任务 都 将 它 要 处 
理 的 子 问题 的 规模 和 预定 义 规模 相 比 较 ， 如 果子 问题 的 规模 小 于 预定 义 
规模 ， 则 直接 求解 该 问题 ， 否 则 ， 它 将 问题 再 次 分 割 给 其 子 任务 处 理 ， 

并 且 等 待 这些 子 任务 返回 结果 。 工 作 镭 取 算 法 利用 了 那些 执行 任务 的 线 
程 ， 它 们 等 待 子 任务 返回 结果 并 执行 其 他 任务 。ForkJoinPoo1l 类 提供 
了 如 下 方法 以 获取 其 状态 。 


e getParallelism(): 该 方法 返回 线程 池 确 立 的 并 行 处 理 的 预期 层 
级 。 

。 getPoolSize(): 该 方法 返回 线程 池 中 的 线程 数 。 

e getActiveThreadCount(): 该 方法 返回 线程 池 中 当前 执行 任务 的 
线程 数 。 

e getRunningThreadCount(): 该 方法 返回 并 不 等 待 其 子 任务 完成 
的 线程 的 数量 。 





e getQueuedSubmissionCount(): 该 方法 返回 已 经 提交 给 线程 池 
但 是 尚未 开始 执行 的 任务 数 。 

e getQueuedTaskCount(): 该 方法 返回 线程 池 工作 穷 取 队列 中 的 任 
务 数 。 

e hasQueuedSubmissions(): 如 果 有 任务 提交 给 线程 池 且 尚未 开始 
执行 ， 则 该 方法 返回 true， 和 否则 返回 false。 

e getStealCount(): 该 方法 返回 Fork/Join 池 执行 工作 窃取 算法 的 次 

e isTerminated(): 如 果 Fork/Join 池 完成 执行 ， 则 该 方法 返回 
true， 奋 则 返回 false。 


可 以 使 用 如 下 所 示 的 代码 片段 获得 ForkJoinPoo1 类 的 相关 信息 。 


OUT. print ln ("**EREEREEKE HEHE RR EE" ) 5 

out.printin("Parallelism: "+ pool.getParallelism()); 
out.println("Pool Size: "+ pool.getPoolSize()); 

out.printin("Active Thread Count: "+ pool.getActiveThreadCount()); 
out.printin("Running Thread Count: "+ pool.getRunningThreadCount()); 


out.println("Queued Submission: "+ pool.getQueuedSubmissionCount()); 
out.printin("Queued Tasks: "+pool.getQueuedTaskCount()); 
out.println("Queued Submissions: "+ pool.hasQueuedSubmissions()); 
out.printin("Steal Count: "+ pool.getStealCount()); 


out.println( "Terminated : "+ pool.isTerminated()); 
OUT. od oa HAN Ln (" * FREER EERE HEH K nD 5 





在 这 里 pool 是 一 个 ForkJoinPoo1 对 象 ( 例 如 
ForkJoinPool.commonPool()) 。 使 用 这 段 代 码 ， 将 得 到 下 面 这 样 的 
输出 结果 。 


MainFork [Java Application] C:\Program Files\Java\jdk-9\bin\javaw.exe (17 abr. 2017 23:22:58) 
RHREREKEREEEEERSORERED A 
Parallelism: 2 

Pool Size: 2 

Active Thread Count: 2 

Running Thread Count: 9 

Queued Submission: 8 

Queued Tasks: 9 

Queued Submissions: false 

Steal Count: 9 

Terminated : false 


LKKAAAAAKAKKKKKKKKKKKESE 


Mon Apr 17 23:23:32 CEST 2017-ForkJoinPool-1-worker-1: Working 5 seconds 


LHELAHALALHLALHRKEKHHHHHKHKEE 


Parallelism: 2 

Pool Size: 2 

Active Thread Count: 2 
Running Thread Count: @ 
Queued Submission: @ 
Queued Tasks: 8 

Queued Submissions: false 
Steal Count: @ 

Terminated : false 


LKKKKKKKKKKKKKKEKK KE EEE 


12.1.5 {hy 4 Phaser 


Phaser 古 一 种 同步 机 制 ， 允 许 执行 可 划分 为 多 个 阶段 的 任务 。 该 类 也 包 
含 一 些 用 于 获取 Phaser 状 态 的 方法 。 


e getArrivedParties(): 该 方法 返回 已 经 完成 当前 阶段 的 已 注册 
参与 方 的 数量 。 

e getUnarrivedParties(): 该 方法 返回 尚未 完成 当前 阶段 的 已 注 
册 参 与 方 的 数量 。 

e getPhase(): 该 方法 返回 当前 阶段 的 编号 。 第 一 个 阶段 的 编号 为 
0。 

e getRegisteredParties(): 该 方法 返回 Phaser 中 已 注册 参与 方 的 
数量 。 

e isTerminated(): 该 方法 返回 一 个 布尔 值 ， 用 于 指示 Phaser 是 否 
已 经 完成 执行 。 


可 以 使 用 如 下 代码 片断 获取 Phaser 的 相关 信息 。 








System.out -printin (BEEBE ERIC IEEE ROE AO AA AOR AOR LAG EE RAR EAE ACES) 


System.out.println("Arrived Parties: "+ phaser.getArrivedParties()); 
System.out.println("Unarrived Parties: "+ phaser.getUnarrivedParties()); 


System.out .println("Phase: "+phaser.getPhase()); 
System.out.println("Registered Parties: "+ phaser.getRegisteredParties()); 


System.out.println("Terminated: "+phaser.isTerminated()); 
System.out -printin (EEA ERIC eR EE E K E A AC A AOE AACS ORE ER AEA AE ACA) 





通过 这 段 代 码 ， 可 以 得 到 如 下 输出 结果 。 


<terminated> MainPhaser [Java Application] C:\Program Files\Java\jdk-9\bin\javaw.exe ( 
KKKKHKKKAKKKEKKKKKKKHKKKKKKKKKKHKKKHKKRKKKKKK EK 


Arrived Parties: 6 
Unarrived Parties: 4 
Phase: 8 

Registered Parties: 10 
Terminated: false 


SE 


KKEKKKKHAKKEKKHKKKAKEKKKHEKKKKKKKKKKKKKKKKKKKKKKEK 


Arrived Parties: 8 
Unarrived Parties: 2 
Phase: 8 

Registered Parties: 10 


: 
Terminated: false 
末 宁 环 杯 末末 末末 末 宁 宁 宁 末末 宁 宁 本 本 末末 本 末末 末末 末末 闲 宁 本 玉环 宁 宁 末末 末末 本 宁 宁 末末 


12.1.6 LLAPI 


流 机 制 是 Java 8 中 引入 的 最 重要 的 新 特性 之 一 。 它 允许 以 并 发 方式 处 理 
大 规模 数据 集 ， 对 该 数据 进行 转换 ， 并 且 以 一 种 简单 的 方式 实现 
MapReduce 编 程 模 型 。 该 类 并 不 提供 任何 获知 流 的 状态 的 方法 (除了 
isParallel() 方 法 ， 它 将 返回 流 是 否 为 并 行 的 ) ， 不 过 其 中 含有 一 个 
名 为 peek() 的 方法 ， 可 以 置 于 多 个 方法 的 流水 线 处 理 之 中 ， 用 以 输出 
与 在 流 中 执行 的 操作 或 变换 相关 的 日 志 信 息 。 


例如 ， 下 面 这 段 代码 计算 了 前 999 个 数 的 平方 的 平均 值 。 








double result=IntStream.range(0,1000) 

.parallel() 

.peek(n -> System.out.println (Thread.currentThread () 
.getName()+": Number "+n)) 

.map(n -> n*n) 

.peek(n -> System.out.println (Thread.currentThread() 
.getName()+": Transformer "+n)) 

.average() 

.getAsDouble() ; 


第 一 个 peek( ) 方 法 输出 该 流 处 理 的 数 ， 而 第 二 个 peek( ) 方 法 则 输出 这 
些 数 的 平方 。 如 果 执 行 这 段 代码 ， 那 么 因为 你 是 以 并 发 方式 执行 该 流 
的 ， 所 以 将 得 到 如 下 的 输出 结果 。 


<terminated> MainStream [Java Application] C:\Program Files\Java\jdk-9\bin\ 





ForkJoinPool. 
ForkJoinPool. 
ForkJoinPool. 
ForkJoinPool. 
ForkJoinPool. 
ForkJoinPool. 
ForkJoinPool. 
ForkJoinPool. 
ForkJoinPool. 
ForkJoinPool. 
ForkJoinPool. 
ForkJoinPool. 
ForkJoinPool. 
ForkJoinPool. 
ForkJoinPool. 


commonPool-worker-1: 
commonPool-worker-3: 
commonPool-worker-1: 
commonPool-worker-3: 
commonPool-worker-1: 
commonPool-worker-3: 
commonPool-worker-1: 
commonPool-worker-3: 
commonPool-worker-1: 
commonPool-worker-3: 
commonPool-worker-1: 
commonPool-worker-3: 
commonPool-worker-3: 
commonPool-worker-3: 
commonPool-worker-3: 


Result: 332833.5 


Number 622 
Transformer 
Transformer 
Number 433 
Number 623 
Transformer 
Transformer 
Number 434 
Number 624 
Transformer 
Transformer 
Number 435 
Transformer 
Number 436 
Transformer 


186624 
386384 


187489 
388129 


188356 


389376 


189225 


190096 


12.2 监视 并 发 应 用 程序 


实现 Java 应 用 程序 时 ， 通 常 要 使 用 Eclipse 或 者 NetBeans 这 样 的 IDE 来 创 
建 项 目 并 编写 源 代码 。 而 JDK (Java development kit) 中 包含 了 可 用 于 
编译 、 执 行 或 生成 Javadoc 文 档 的 工具 。JConsole 束 是 其 中 的 一 种 图 形 化 
工具 ， 展 示 了 在 JVM 中 执行 的 应 用 程序 的 信息 。 可 以 在 JDK 安 装 路 径 下 
的 bin 目 录 中 找到 它 (jconsole.exe) 。 


如 采 执 行 该 工具 ， 就 会 看 到 如 下 这 样 的 窗口 。 





Connection Window Help 





(Pr JConsole: New Connection E 


Ay New Connection è 


@ Local Process: 








通过 在 Local Process 区 域 选 定 某 一 进程 ， 可 以 监视 那些 在 计算 机 上 运行 
的 进程 ， 也 可 以 在 Remote Process 区 域 引 入 远程 进程 的 数据 以 监视 远程 
进程 。 





一 旦 选 定 进程 或 者 引入 想 要 监视 的 进程 的 数据 ， 点 击 Connect 按 钮 。 可 
ee 告诉 你 正在 局 动 一 个 不 安全 的 连接 。 该 窗口 与 下 
图 相似 。 





Connection Window Help 


[Overview| Memory Threads Casses VM Summa: 
S Į. Secure connection failed. Retry insecurely? se 


The connection to 6148 could not be made using SSL. 
Would you like to try without SSL? 
(Username and password will be sent in plain text.) 


Insecure connection Cancel 


+Z F Insecure connection} 4H - 
你 会 看 到 屏幕 上 有 6 个 选项 卡 。 


。 Overview: 该 选项 卡 展 示 了 有 关 该 应 用 程序 的 一 般 信 息 。 

。 Memory: 该 选项 卡 展示 了 有 关内 存 使 用 情况 的 信息 。 

e Threads: 该 选项 卡 展 示 了 应 用 程序 的 线程 随时 间 推 移 的 演变 情 
况 ， 而 且 人 允许 查看 某 一 线程 的 详细 信息 。 

e Classes: 该 选项 卡 展示 了 当前 加 载 类 的 信息 以 及 类 的 数量 。 

e VM Summary: 该 选项 卡 展 示 了 运行 进程 的 Java 虚 拟 机 的 信息 。 

e MBean: 该 选项 卡 展示 了 进程 的 MBean。Mbean 是 一 个 托管 的 Java 
对 象 ， 可 以 表示 设备 、 应 用 程序 或 者 任何 资源 ， 而 且 它 是 JMX API 








的 基础 。 


在 接 下 来 的 各 小 节 ， 你 将 了 解 可 在 每 个 选项 卡 中 获取 到 的 信息 。 你 可 以 
http://docs.oracle.com/javase/7/docs/technotes/guides/management/jconsole.h 
来 获取 有 关 该 工具 的 完整 文档 。 





12.2.1 Overview 选项 卡 


如 前 所 述 ， 该 选项 卡 以 图 形 化 方式 展示 了 有 关 应 用 程序 的 一 般 信息 ， 你 
可 以 看 出 不 同时 间 取 值 的 变化 。 这 些 信 息 包 括 如 下 几 点 。 


e Heap Memory Use: 该 图 展示 了 应 用 程序 使 用 的 内 存 大 小 。 它 也 展 
现 了 已 用 内 存 、 指 定 内 存 和 最 大 内 存 。 

e Threads: 该 图 展示 了 应 用 程序 所 使 用 线程 数 的 演变 情况 。 其 中 合 
有 程序 员 以 显 式 方式 创建 的 线程 和 由 JVM 所 创建 的 线程 。 

e Classes: 该 图 展示 了 应 用 程序 加 载 的 类 的 数量 。 

e CPU Usage: 该 图 展示 了 应 用 程序 CPU 使 用 的 变化 情况 。 


其 外 观 类 似 于 如 下 的 屏幕 截图 。 
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CPU Usage: 8,9% 





12.2.2 Memory 选项 卡 


如 前 所 述 ， 该 选项 卡 以 图 形 化 方式 展示 了 应 用 程序 的 内 存 使 用 情况 。 你 
可 以 查看 这 些 指标 随时 间 的 变化 情况 。 该 选项 卡 的 外 观 如 下 所 示 。 


ui} Connection Window Help 
EC Overview Memory] Threads Classes VMSummary MBeans 
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在 屏幕 的 上 方 ， 有 一 个 供 你 选择 内 存 类 型 的 下 拉 亲 单 。 该 来 单 提供 了 多 


种 不 同 的 选项 ， 


例如 堆 内 存 、 非 堆 内 存 ， 以 及 特定 的 内 存 工具 ， 例 如 


Eden Space 用 于 展示 最 初 为 大 多 数 对 象 分 配 的 内 存 的 信息 ， 而 Survivor 


Space 则 用 于 展示 维持 Eden Space 垃 圾 收集 器 的 对 象 所 使 用 的 内 存 。 


之 后 ， 可 以 得 到 选 定 元 素 随时 间 演 变 的 图 示 。 最 后 ， 还 有 一 个 Details 区 


域 ， 用 于 展示 内 存 消耗 信息 。 


12.2.3 Threads} Mi- 


Used 区 : 展示 应 用 程序 当前 的 内 存 使 用 量 。 
Committed X.: 用 于 保障 JVM 执 行 的 内 存量 。 
Max 区 : JVM 可 以 使 用 的 最 大 内 存量 。 
GC time 区 : 花费 在 垃圾 收集 上 的 时 间 。 


如 前 所 述 ， 在 Threads 选 项 卡 中 ， 可 以 看 到 应 用 程序 的 线程 随时 间 的 变 
化 情况 。 该 选项 卡 的 外 观 如 下 所 示 。 
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Reference Handier State: RUNNABLE 
nelizer Total blocked: 30 Total waited: 2 
Signal Dispatcher 
Attach Listener 
Common-Cleaner Stack trace: 
Thread java.base$9-ea/sun.nio.ch.FileDispatcherImpl.read0 (Native Method) 
Thread-1 java. base@S-ea/sun.nio.ch.FileDispatcherImpl.read(FileDispatcherImpl.java:52) 
pow java. base@$-ea/sun.nio.ch.IOUtil.readIntoNativeBuffer (I0Util.java:223) 
pool-1-thread-2 java.base@9-ea/sun.nio.ch.I0Util.read(IOUtil.java:197) d 
pool-1-thread-3 java.base@9-ea/sun.nio.ch.FileChannel Impl. read (FileChannelimpl.java:165) 
RME TCP Accept- ~ locked java.lang.ObjectG496éSb42d Í 
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RMI TCP Connection(1)-192.168.99.3 |. z a ees i a ae 7 
RMI (0) java. base@$-ea/sun.nio.ch.ChannelInputStream. read (ChannelInputStream. java: 65) 


SET 人 v jjava.base§S-ea/sun.nio.ch.ChannelInputStream. read (ChannelInputStream.java:109) v 
< > < > 


Detect Deadock 
n 


owe 


该 屏幕 展示 了 线程 数 随时 间 变 化 的 演变 情况 。 你 将 看 到 两 个 数值 。Live 
Threads 是 当前 正在 运行 的 线程 数 ， 而 Peak 线程 数 则 是 最 大 线程 数 。 


在 底部 ， 窗 口 的 左 部 是 所 有 当前 所 有 线程 的 列表 。 如 霖 选 定 其 中 一 个 线 
程 ， 那 么 在 右 侧 就 会 看 到 关于 该 线程 的 信息 ， 例 如 该 线程 的 名 称 、 状 态 
和 当前 栈 追 踪 情 况 。 











12.2.4 Classes mF 
Classes 选 项 卡 展示 了 当前 加 载 类 的 信息 。 该 选项 卡 的 外 观 如 下 所 示 。 


la} Connection Window Help 
EC Overview Memory Threads Classes vM Summary MBeans 
Time Range: Al v E Verbose Output 
Number of Loaded Classes 








3.000 7 
o 
o 
M 
yi 
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Total Load 
| Loaded 
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Ep 
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Time: 2017-06-11 00:23:38 
Current classes loaded: 2.226 
Total classes loaded: 2.229 
Total classes unloaded: 
J 





该 选项 卡 的 上 方 展示 了 一 幅 图 ， 表 现 了 应 用 程序 随时 间 变 化 加 载 类 的 数 
量 的 演变 情况 。 图 中 的 红线 表示 应 用 程序 加 载 的 类 的 总 数 ， 而 监 线 则 表 


示 当 前 加 载 的 类 的 数量 。 
选项 卡 的 底部 是 细节 展示 区 ， 其 中 含有 当前 信息 。 








。 当前 加 载 的 类 。 
。 总 共 加 载 的 类 。 
。 尚未 加 载 的 类 。 


12.2.5 VM Summary 选 项 卡 
VM Summary 选 项 卡 展示 了 有 关 Java 虚 拟 机 的 信息 。 该 选项 卡 的 外 观 如 


下 所 示 。 


fh idol Jawa Momtonna Be Mananement.Cantole «nick 
ui Connection Window Help ~ g x 


EC Overview Memory Threads Classes VM Summary MBeans ~w 


> j 


VM Summary 
domingo, 11 de junio de 2017, 0:23:50 (hora de verano de Europa central) 


Connection name: pié 10752 Uptime 
com javfema packtpub mastering textindexing concurrent.ConcurrentIndexing 


Ss Virtual Machine: Java HotSpot(TM) 64-Bit Server VM version 9-2a+165 
Vendor: Oracle Corporation 


: 1 minute 
Process CPU time: | minute 
JIT compiler: HotSpot 64-Bit Tiered Compilers 


œ Name: 10752@PortatiHP Total compile time: 25,180 seconds k 
ti 
Live threads: 16 Current classes loaded: 2.286 3 
Peak: 18 Total classes loaded: 2.289 
Daemon threads: 12 Total classes unloaded: 3 
_ Total threads started: 1 
Current heap size: 501.248 kbytes Committed memory: 221.248 kbytes hi 
Maximum heap size: 1.212.624 kbytes Pending finalization: 0 objects 
Garbage collector: Name ='Gi Young Generation’, Collections = 32, Total time spent = 2,345 seconds i 
Garbage collector: Name ='G1 Old Generation’, Collections = 0, Total time spent = 0,000 seconds 
Operating System: Windows 10 10.0 Total physical memory: 7.273.972 kbytes 
Architecture: amd64 Free physical memory: 1.475.004 kbytes 
Number of processors: 4 Total swap space: ©. 453.620 kbytes 
Committed virtual memory: 951.532 kbytes Free swap space: 1.336.082 kbytes iB 


VM arguments: -Dfile.encoding*Cp1252 ii 
Class path: C:books2java9-mastering workspace’ Textindexing bin 


Library path: C:\Program Files Javaljdk-9 bin;C\ WINDOWS Sun Javabin.C WINDOWS system32;C) WINDOWS, C: Program 
Files Java}dk1.$.0_121 bin’..jre’bin’server,C> Program Files Javajdk!.$.0_121/ban’..jre'bin,C» Program | 
Files Javajdk1.$.0_121bin’_.jre lib amd64;C- Program Files 
n (180 Embarcadero Studio’ 18. 0-bin-C:\Users' Public Documents Embarcadero Studio’ 18.0 BotC:Prorram Files bd). 


如 图 所 示 ， 该 选项 卡 展示 了 如 下 信息 。 


° o 这 一 块 区 域 展示 了 有 关 正 在 运行 进程 的 Java 虚 拟 机 实现 
o Virtual Machine: 正在 执行 进程 的 Java 虚 拟 机 的 名 称 。 
Vendor: 实现 该 Java 虚 拟 机 的 组 织 名 称 。 
Name: 运行 进程 的 机 器 名 称 。 
Uptime: 从 JVM 启 动 到 现在 经 过 的 时 间 。 
Process CPU time: JVM 消 耗 的 CPU 时 间 。 
。 线程 区 域 : 该 区 域 展示 了 有 关 应 用 程序 线程 的 信息 。 
Live threads: 当前 运行 的 线程 总 数 。 
o Peak: 在 JVM 中 执行 的 最 高 线程 数 。 
o Daemon threads: 当前 运行 的 守护 线程 总 数 。 
o Total threads started: 目 JVM 开 始 运行 后 开始 执行 的 线程 总 数 。 
e 类 区 域 : 该 区 域 展 示 了 有 关 应 用 程序 类 的 数量 的 信息 。 











(0) 


(0) 





(0) 


(6) 


O 〇 


o Current classes loaded: 当前 加 载 到 内 存 中 的 类 的 数量 。 
o Total classes loaded: JVM 开 始 运行 后 加 载 到 内 存 中 的 类 的 数 


o Tot classes unloaded: JVM 开 始 运行 后 从 内 存 中 卸载 的 类 的 数 


° 内 存 区 : 该 区 域 展示 了 应 用 程序 的 内 存 使 用 情况 
o Current heap size: 当前 堆 的 规模 。 
o Committed memory: 为 堆 的 使 用 分 配 的 内 存 总 量 。 
o Maximum heap size: 堆 的 最 大 规模 。 
o Garbage collector: 垃圾 收集 器 的 相关 信息 。 
。 操作 系统 区 : 该 区 域 展示 了 有 关 执 行 Java 虚 拟 机 的 操作 系统 的 信 
H, 


H 








o Operating System: 运行 JVM 的 操作 系统 的 版 本 。 

o Number of Processors: 计算 机 所 配置 的 核 的 数量 或 CPU 数量 。 
o Total physical memory: 操作 系统 可 用 的 RAM 总 量 。 

o Free physical memory: 操作 系统 可 用 的 空闲 RAM 总 量 

o Committed virtual memory: 保证 当前 进程 运行 的 内 存 。 

其 他 信息 : 该 区 域 展示 了 关于 Java 虚 拟 机 的 其 他 信息 。 

VM its : 传递 给 JVM 的 参数 。 

Class path: JVM 的 类 路 径 。 

Library path: JVM 的 库 路 径 。 

Boot class path: JVM 寻 找 java.*k 和 Jjavax.# 类 的 路 径 。 





O 〇 


O O O 


12.2.6 ”MBeans 选 项 卡 


MBeans 选 项 卡 展示 了 所 有 在 平台 上 注册 的 MBean 的 信息 。 该 选项 卡 的 
外 观 与 下 图 类 似 。 
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CurrentThrea 
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ThreadConter 
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getThreadUse i 
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在 该 选项 卡 的 左 侧 ， 可 以 在 目录 树 中 看 到 所 有 正在 运行 的 MBean。 选 定 
其 中 一 项 ， 将 在 选项 卡 的 右 侧 看 到 MBean Info 和 MBean Descriptor 的 内 
容 。 


并 发 应 用 程序 可 用 Threading MBean 表 示 ， 它 共有 两 个 区 域 。 Attributes 
区 域 包含 MBean 的 属性 ， 而 Operations 区 域 包含 所 有 可 以 通过 该 MBean 
运行 的 操作 。 


12.2.7 About 选项 卡 


最 后 ， 通 过 Help 沫 单 中 的 About 选 项 ， 可 以 获得 当前 执行 的 JConsole 的 版 
你 会 看 到 类 似 如 下 的 窗口 。 




















12.3 测试 并 发 应 用 程序 


测试 并 发 应 用 程序 是 一 项 艰巨 的 任务 。 应 用 程序 的 线程 在 计算 机 上 运行 
时 无 法 保证 任何 执行 顺序 《除非 引入 了 同步 机 制 ) ， 因 此 很 难 〈 大 部 分 
情况 下 是 不 可 能 ) 对 所 有 可 能 出 现 的 情况 都 进行 测试 。 还 有 些 错误 不 可 
能 进行 重 现 ， 因 为 它们 仅 发 生 在 偶然 或 者 独特 的 场合 中 。 或 者 由 于 CPU 
核 数 的 原因 ， 错 误会 在 一 台 机 器 上 发 生 但 是 不 会 在 另 一 台 上 发 生 。 为 探 
查 和 重 现 这 些 场景 ， 就 要 使 用 不 同 的 工具 。 


e Debug: 可 以 使 用 调试 器 调试 应 用 程序 。 如 果 应 用 程序 中 仪 有 少量 
线程 ， 这 个 过 程 将 会 非常 枯燥 ， 而 且 需 要 在 每 个 线程 中 都 一 步 一 步 
试 。 可 以 对 Eclipse 或 NetBeans 进 行 配置 以 测试 并 发 应 用 程 
Fo 

MultithreadedTC: 这 是 Google Code 的 一 个 备案 项 目 ， 可 用 于 在 并 

发 应 用 程序 中 强制 规定 执行 顺序 。 

e Java PathFinder: 这 是 NASA 用 于 验证 Java 程 序 的 一 种 执行 环境 。 它 
还 文 持 对 并 发 应 用 程序 的 有 效 性 验证 。 

Unit testing: 可 以 创建 一 组 单元 测试 《使 用 JUnit 或 者 TestNG) ， 并 
且 多 次 进行 每 个 测试 〈 例 如 1000 次 ) 。 如 果 每 个 测试 都 成 功 了 ， 那 
么 即使 应 用 程序 出 现 竞 争 ， 其 可 能 性 也 并 不 高 ， 也 是 可 被 生成 环境 
所 接受 的 。 你 可 以 在 自己 的 代码 中 加 入 一 些 断 言 ， 以 此 验证 是 否 存 
TESLA 


在 下 面 的 各 节 中 ， 你 将 看 到 使 用 MultithreadedTC 和 Java PathFinder 工 具 
测试 并 发 应 用 程序 的 一 些 基 本 例子 。 


12.3.1 ”使 用 MultithreadedTC 测 试 并 发 应 用 程序 


MultithreadedTC 是 一 个 备案 项 目 ， 可 以 通过 网 

址 http://code.google.com/p/multithreadedtc/ 下 载 。 它 的 最 新 版 本 是 2007 年 
发 布 的 ， 不 过 仍然 可 以 使 用 它 测 试 小 型 并 发 应 用 程序 或 者 单独 测试 大 型 
应 用 程序 的 部 件 。 尽 管 不 能 用 它 测 试 实际 任务 或 者 线程 ， 但 是 可 以 使 用 
它 测试 不 同 的 执行 顺序 ， 从 而 检验 是 否 会 导致 竞争 条 件 或 者 死 锁 。 


它 基 于 一 个 内 部 时 钟 进行 计时 ， 该 时 钟 可 以 控制 不 同 线程 的 执行 顺序 ， 
以 测试 该 执行 顺序 是 否 会 叶 臻 什么 并 友 问 题 。 














首先 ， 需 要 将 两 个 库 关 联 到 项 目 中 。 


e MultithreadedTC 库 : 最 新 版 本 是 1.01 版 。 
e JUnit 库 : 我 们 使 用 4.12 版 测试 了 这 个 例子 。 


要 使 用 MultithreadedTC 库 实施 测试 ， 要 扩展 MultithreadedTestCase 
类 ， 该 类 扩展 了 JUnit 库 的 Assert 类 。 可 以 实现 如 下 方法 。 


e initialize(): 该 方法 将 在 测试 执行 开始 时 执行 。 如 果 需 要 执行 
初始 化 代码 以 创建 数据 对 象 、 数 据 库 连 接 等 ， 可 以 重 载 该 方法 。 

e finish(): 该 方法 将 在 测试 执行 结束 后 执行 。 可 以 对 其 重 载 以 实 
现 对 测试 的 验证 。 

e threadXXX(): 可 以 为 测试 中 的 每 个 线程 实现 一 个 名 称 以 thread 关 
键 字 开 头 的 方法 。 例 如 ， 如 果 想 要 测试 三 个 线程 ， 就 要 在 自己 的 类 
中 实现 三 个 方法 。 


MultithreadedTestCase 类 提供 了 waitForTick() 方 法 。 议 方法 接收 
你 要 等 竺 的 时 数 作为 参数 。 访 方法 使 调用 线程 休眠 ， 直 到 内 部 时 钟 达到 
该 时 刻 为 止 。 


第 一 个 时 刻 是 时 数 为 8 的 时 刻 。MoultithreadedTC 框 架 以 特定 时 间 间 隔 检 
查 测 试 线程 的 状态 。 如 果 所 有 运行 的 线程 都 在 waitForTick() 方 法 中 等 
待 ， 那 么 它 将 增加 时 数 ， 并 且 唤 醒 所 有 等 竺 该 时 刻 的 线程 。 


下 面 看 一 个 使 用 它 的 例子 。 假 设 要 测试 一 个 Data 对 象 内 部 的 int 属 性 ， 

需要 一 个 线程 来 增加 该 属性 的 值 和 一 个 线程 来 减 小 该 属性 的 值 。 可 以 创 
建 一 个 名 为 TestClassok 的 类 扩展 MultithreadedTestCase 类 。 我 们 
用 到 了 数据 对 象 的 三 个 属性 : 将 要 增加 的 数据 量 、 将 要 减少 的 数据 量 和 
数据 的 初始 值 ， 代 码 如 下 : 

















public class TestClassOk extends MultithreadedTestCase { 


private Data data; 
private int amount; 
private int initialData; 


public TestClassOk (Data data, int amount) { 
this.amount=amount; 
this.data=data; 
this.initialData=data.getData(); 


e S 


我 们 实现 两 个 方法 来 模拟 两 个 线程 的 执行 。 第 一 个 线程 在 threadAdd() 
方法 中 实现 。 


public void threadAdd() { 
System.out.println("Add: Getting the data"); 
int value=data.getData(); 
System.out.println("Add: Increment the data"); 


value+=amount; 
System.out.println("Add: Set the data"); 
data.setData(value) ; 





该 方法 读 取 数 据 的 值 ， 增 加 其 值 ， 并 且 再 次 输出 数据 的 值 。 第 二 个 方法 
在 threadSub() 方 法 中 实现 。 


public void threadSub() { 
waitForTick(1); 
System.out.println( "Sub: Getting the data"); 
int value=data.getData(); 
System.out.println("Sub: Decrement the data"); 
value-=amount ; 
System.out.println("Sub: Set the data"); 
data.setData(value) ; 





首先 ， 等 待 时 刻 1。 然 后， 获取 该 数据 的 值 ， 减 少 其 值 ， 并 且 重 新 输出 
该 数据 的 值 。 


为 了 执行 该 测试 ， 可 以 使 用 TestFramework 类 的 run0nce() 方 法 。 





public class MainOk { 


public static void main(String[] args) { 


Data data=new Data(); 
data.setData(1@); 
TestClassOk ok=new TestClassOk(data, 10) ; 


try { 
TestFramework.runOnce(ok) ; 


} catch (Throwable e) { 
e.printStackTrace(); 





当 测 试 开 始 执行 时 ， 两 个 线程 (threadAdd( ) 和 threadSub()) 以 并 发 
方式 启动 。threadAdd( ) 线 程 开始 执行 其 代码 ， 而 threadsub() 线 程 则 
在 waitForTick() 方 法 中 等 待 。 当 threadAdd() 线 程 完 成 执行 后 ， 
MultithreadedTC 的 内 部 时 钟 探测 到 在 waitForTick() 方 法 中 只 有 一 个 线 
程 正在 等 待 ， 因 此 它 将 时 数 增加 到 1， 并 且 唤醒 执行 其 代码 的 线程 。 





在 下 面 的 屏幕 截图 中 ， 将 看 到 执行 本 例 后 的 输出 结果 。 在 这 种 情况 下 ， 
一 切 都 运行 正常 。 


<terminated> MainOk [Java Application] C:\Program Files\Java\jdk-9\bin\javaw.exe ( 
Add: Getting the data 

Add: Increment the data 

Add: Set the data 

Sub: Getting the data 

Sub: Decrement the data 

Sub: Set the data 





不 过 ， 你 可 以 改变 线程 的 执行 顺序 以 产生 一 个 错误 。 例 如 ， 可 以 按 下 面 
的 顺序 实现 ， 它 将 导致 一 个 竞争 条 件 。 





public void threadAdd() { 
System.out.println("Add: Getting the data"); 
int value=data.getData(); 
waitForTick(2); 
System.out.println( "Add: Increment the data"); 
value+=amount; 
System.out.println("Add: Set the data"); 
data.setData(value) ; 

} 


public void threadSub() { 
waitForTick(1); 
System.out.println( "Sub: Getting the data"); 
int value=data.getData(); 
waitForTick(3); 
System.out.println("Sub: Decrement the data"); 


value-=amount; 
System.out.println("Sub: Set the data"); 
data.setData(value) ; 


} 





在 这 种 情况 下 ， 执 行 顺序 要 保证 两 个 线程 都 首先 读 取 数据 的 值 ， 然 后 进 
行 操作 ， 因 此 最 后 的 结果 就 不 会 正确 。 





在 下 面 的 屏幕 截图 中 ， 可 以 看 到 该 例 的 执行 结果 。 


<terminated> MainKo [Java Application] C:\Program Files\Java\jdk-9\bin\javaw.exe (11 jun. 2017 
Getting the data 

Getting the data 

Increment the data 

Set the data 

Decrement the data 

Set the data 

junit. framework.AssertionFailedError: expected:<1@> but was:<@> 


Add: 
Sub: 
Add: 
Add: 
Sub: 
Sub: 


at 
at 
at 
at 
at 
at 
at 
at 


junit. framework.Assert.fail(Assert.java:57) 

junit. framework.Assert.failNotEquals (Assert. java: 329) 

junit. framework.Assert.assertEquals (Assert. java: 78) 

junit. framework.Assert.assertEquals (Assert. java: 234) 

junit. framework.Assert.assertEquals (Assert. java: 241) 

com. javferna. packtpub.mastering.testing.tc.TestClassKo.finish( 
edu.umd.cs.mtc. TestFramework.runOnce(TestFramework. java: 285) 
edu.umd.cs.mtc.TestFramework.runOnce(TestFramework. java: 235) 





在 这 种 情况 下 ，assertEquals() 方 法 会 抛 出 一 个 异常 ， 因 为 预期 的 值 
和 实际 值 不 一 样 。 


该 库 的 主要 缺陷 在 于 ， 它 仅 对 测试 基本 的 并 发 代码 有 用 ， 因 此 当 你 实施 
测试 时 ， 不 能 用 它 来 测试 真实 的 线程 代码 。 


12.3.2 {#4 Java Pathfinder 测 试 并 发 应 用 程序 


Java Pathfinder (或 者 说 JPF) 是 NASA 的 一 个 开源 执行 环境 ， 可 以 用 于 
验证 Java 应 用 程序 。 它 含有 上 自己 的 虚拟 机 ， 用 于 执行 Java 字 节 码 。 从 内 
部 来 看 ， 它 探测 代码 中 那些 可 以 有 多 条 执行 路 径 的 节点 ， 并 且 执行 所 有 
可 能 的 路 径 。 在 并 发 应 用 程序 中 ， 这 意味 着 它 将 执行 应 用 程序 中 线程 之 
间 所 有 可 能 的 执行 顺序 。 它 还 含有 一 些 工 具 ， 可 以 帮助 检测 竞争 条 件 和 


死 锁 。 




















该 工具 的 主要 优点 在 于 ， 它 允许 你 完整 地 测试 并 发 应 用 程序 ， 保 证 应 用 
程序 不 会 出 现 竞 争 条 件 和 死 锁 。 该 工具 还 有 一 些 不 太 方 便 的 地 方 。 


。 需要 从 其 源 代码 安装 它 。 

e 如 果 应 用 程序 很 复杂 ， 将 有 成 干 上 万 种 可 能 的 执行 路 往 ， 这 样 测试 
过 程 就 会 耗 时 很 长 (如 果 应 用 程序 很 复杂 ， 很 可 能 会 花费 许多 时 
间 ) 。 

下 面 的 各 节 将 展示 如 何 使 用 Java Pathfinder 测 试 并 发 应 用 程序 。 


01. 安装 Java Pathfinder 





如 前 所 述 ， 需 要 从 源码 安装 JPF。 该 源码 位 于 Mercurial 资 源 库 ， 
此 第 一 步 是 安装 Mercurial， 而 且 因为 我 们 将 用 到 Eclipse IDE， 所 以 
还 需要 安装 Mercurial plugin for Eclipse。 


接着 ， 请 下 载 Mercurial。 你 下 载 的 安装 程序 应 该 提供 了 安装 助手 ， 
可 将 Mercurial 安 装 到 计算 机 。 在 Mercurial 安 装 完毕 之 后 ， 可 能 需要 
重启 计算 机 。 


可 以 使 用 Eclipse 菜单 中 的 Help | Install new software 选 项 下 载 
Mercurial plugin for Eclipse。 这 和 安装 其 他 插件 的 步骤 相同 。 


还 可 以 安装 一 个 JPF plugin for Eclipse. 


现在 可 以 访问 Mercurial 资 源 库 的 浏览 器 视图 ， 并 且 添 加 Java 
Pathfinder 资 源 库 。 我 们 将 仅 使 用 

在 http://babelfish.arc.nasa.gov/hg/jpf/jpf-core 中 存放 的 核心 模块 。 访 
问 该 资源 库 并 不 需要 用 户 名 或 密码 。 当 你 创建 了 该 资源 库 后 ， 可 以 
右键 点 击 该 资源 库 ， 在 全 单 中 选择 Clone repository 选 项 ， 将 其 源码 
下 载 到 计算 机 。 该 选项 将 打开 一 个 窗口 ， 其 中 有 一 些 选 项 可 供 选 
择 ， 不 过 可 以 保留 默认 值 并 且 点 击 Next 按 钮 。 然 后 ， 选 择 要 下 载 的 
版 本 。 保 留 默 认 值 ， 并 且 点 击 Next 按 钮 。 最 后 ， 点 击 Finish 按 钮 完 
成 下 载 过 程 。Eclipse 将 自动 运行 ant 以 编译 该 项 目 。 如 果 出 现 了 编译 
问题 ， 就 必须 先 解决 这 些 问 题 并 且 重 新 启动 ant。 


如 果 一 切 正 常 ， 工 作 空 间 中 将 出 现 一 个 名 为 jpf-core 的 项 目 ， 如 下 面 
的 屏幕 截图 所 示 。 








lë Package Explorer 53 fs Type Hierarchy eB) e meg 





> (FR src/main 
> gẹ src/peers 
> g} src/classes 
> @ src/annotations 
> fẹ} src/examples 
> SR src/tests 
> Æ JRE System Library [jrel.80 65] 
> Gy bin 
> By doc 
> Gy eclipse 
> Gy META-INF 
; Ê nbproject 
fey Src 
=) build.properties 
$) build.xml 
EJ jpf.properties 
E LICENSE-2.0.tet 
=) README 
b Æ TestInformation 


最 后 一 个 配置 步骤 是 通过 对 JPF 的 配置 创建 一 个 名 为 site.properties 的 
文件 。 如 果 你 点 击 Window | Preferences 沫 单 访 问 配置 窗口 ， 并 且 选 
择 JPF Preferences 选 项 ， 将 看 到 JPF 用 于 查找 该 文件 的 路 径 。 如 果 需 
要 ， 可 以 更 改 该 路 径 。 


02. 


S Preferences || © j 


type filter text JPF Preferences 7 A 
General 


Ant 
Code Recommenders Shell Port Number: 4242 





Set the properties for Eclipse-JPF 





Help 
Install/Update 
Java JPF's Arguments 
JPF Preferences 
Maven 

Mylyn 

Oomph 
Run/Debug 
Team 
Validation 
WindowBuilder 
XML 


Path to site,properties D:\dev\book\site. properties | Browse... | 


JPF's Host VM Arguements 





[Restore Defaults | | Apply | | 








® @ (nes | 








因为 我 们 将 仅 使 用 核心 模块 ， 所 以 该 文件 将 仅 记 录 jpf-core 项 目的 路 


径 。 


Jpf-core = D:/dev/book/projectos/jpf-core 


运行 Java Pathfinder 


安装 了 JPF 之 后 ， 看 看 如 何 使 用 它 测试 并 发 应 用 程序 。 首 先 要 实现 
一 个 并 发 应 用 程序 。 在 我 们 的 例子 中 ， 将 使 用 一 个 Data 类 ， 它 带 有 
一 个 内 部 的 int 值 。 该 值 的 初始 状态 为 60。。Data 类 中 有 一 

个 ijncrement() 方 法 用 于 增加 其 值 。 


然后 ， 还 有 一 个 名 为 NumberTask 的 任务 ， 它 实现 了 Runnable 接 
口 ， 将 对 Data 对 象 的 值 做 10 次 递增 操作 。 


public class NumberTask implements Runnable { 


private Data data; 


public NumberTask (Data data) { 
this.data=data; 


} 


@Override 
public void run() { 


for (int i=@; i<10; i++) { 
data.increment(1@); 





最 后 ， 还 有 一 个 实现 main() 方 法 的 MainNumber 类 。 我 们 将 启动 两 
个 NumberTasks 对 象 来 修改 同一 Data 对 象 。 最 后 会 得 到 Data 对 象 
的 最 终 值 。 


public class MainNumber { 


public static void main(String[] args) { 
int numTasks=2; 
Data data=new Data(); 


Thread threads[ ]=new Thread[numTasks ]; 

for (int i=@; i<numTasks; i++) { 
threads[i]=new Thread(new NumberTask(data)); 
threads[i].start(); 

} 


for (int i=@; i<numTasks; i++) { 
try { 
threads[i].join(); 
} catch (InterruptedException e) { 
e.printStackTrace(); 
} 


} 


System.out.println(data.getValue()); 








如 果 一 切 正 常 并 且 没 有 竞争 条 件 出 现 ， 最 终 的 结果 将 是 200， 但 是 
代码 并 未 采用 任何 同步 机 制 ， 因 此 很 可 能 出 现 竞争 条 件 。 

如 果 使 用 JPF 执 行 该 应 用 程序 ， 需 要 在 项 目 中 创建 一 个 扩展 名 为 .jpf 
的 配置 文件 。 例 如 ， 我 们 创建 了 NumberJPF.jpf 文 件 ， 其 中 含有 要 用 
到 的 最 基本 的 配置 。 


+classpath=${config path}/bin 





target=com.javferna.packtpub.mastering.testing.main.MainNumber 


修改 JPF 的 类 路 径 ， 添 加 项 目的 bin 目 录 ， 并 且 指 明 应 用 程序 的 主 
类 。 现 在 ， 准 备 通过 JPF 执 行 应 用 程序 。 为 此 ， 态 键 点 击 .jpf 文 件 并 
且 从 弹出 菜单 中 选择 Verify 选 项 。 我 们 将 在 控制 台中 看 到 大 量 输出 
消息 。 每 条 输出 消息 都 来 自 于 应 用 程序 的 一 条 不 同 的 执行 路 径 。 


I$) Problems @ Javadoc Kò, Declaration 4 Search 园 Console 52 
NumberJPF.jpf(run) 


Executing command: java -jar D:\dev\book\proyectos\jpf-core\build\RunJPF.jar +site=D: \dev\book\site. prope: 
JavaPathfinder core system v8.@ (rev 29) - (C) 2005-2014 United States Government. All rights reserved. 


com. javferna.packtpub.mastering.testing.main.MainNumber .main() 


一 一 二 一 二 二 二 一 天 二 二 二 二 ======== search started: 3/12/15 2:26 


e ee 的 执行 后 ， 它 会 给 出 有 关 执 行 过 程 的 
AUV 1a wo 


69 

50 

48 

30 

20 

EEE ET eenseeeees results 

no errors detected 

SSCS SSS SSS SESS S ESSE SESS SSS SS SSE SESS ESS SS SSS EE SEES SEES = statistics 

elapsed time: 06:00:16 

states: new=72199, visited=101549, backtracked=173748, end=57 

search: maxDepth=67, constraints=0 

choice generators: thread=72199 (signal=0, lock=2,sharedRef=65612, threadApi=1504, reschedule=5081), data=0 
heap: new=632,released=1301,maxLive=370, gcCycles=173619 

instructions: 1721841 

max memory: 353M8 

loaded code: classes=64,methods=1476 

SSSSSSSSSS SSS SS SS SSS SSS SSS SSS SSS SSS SS SSS SSSesessssssse search finished: 3/12/15 2:27 


JPF 的 执行 结果 显示 并 未 检测 到 错误 ， 但 是 可 以 看 到 ， 大 多 数 结果 
都 不 是 200， 因 此 应 用 程序 存在 预期 的 竞争 条 件 。 


12.3.2 节 开头 曾 提 到 ，JPF 提 供 了 探测 竞争 条 件 和 和 死 锁 的 工具 。JPF 
通过 一 种 Listener 机 制 实现 这 些 功能 ， 它 实现 了 观察 者 
(Observer) 模式 ， 对 代码 执行 过 程 中 发 生 的 特定 事件 做 出 啊 
应 。 例 如 ， 可 以 使 用 下 面 的 监听 器 。 


e PreciseRaceDetector: 使 用 该 监听 器 探测 竞争 条 件 。 

e DeadlockAnalyzer: 使 用 该 监 昕 器 探测 死 锁 情况 。 

e CoverageAnalyzer: 使 用 该 监听 器 在 JPF 执 行 结束 后 输出 履 
盖 率 信息 
JL H Jyo 


可 以 在 .jpf 文 件 中 配置 要 使 用 的 监听 器 ， 该 文件 中 含有 执行 过 程 的 
配置 情况 。 例 如 ， 我 们 对 此 前 NumberListenerJPF.jpf 文 件 中 的 测试 
进行 了 扩展 ， 加 入 了 PreciseRaceDetector 和 
CoverageAnalyzer Ii VT 28 











+classpath=${config_path}/bin 
target=com. javferna.packtpub.mastering.testing.main.MainNumber 


listener=gov.nasa.jpf.listener.PreciseRaceDetector, gov.nasa.jpf.1li 
stener.CoverageAnalyzer 





如 末 通 过 JPF 的 Verify 选 项 执行 该 配置 文件 ， 在 该 应 用 程序 结束 时 
2 a 会 在 控制 台中 给 出 有 关 这 
一 情况 g aA. 


Seeereesesseseeesesecersesesscsessessscesseseseseeses=s system under test 


com. javferna.packtpub.mastering.testing.main.MainNumber.main() 


SSS SSS SSeS SSS SSS SSeS Sees eee eeeeeeseeseeseeseseessees search started: 3/12/15 2:43 
200 
200 


zzz.: E error 1 
gov.nasa. jpf. listener .PreciseRaceDetector 
race for field com. javferna.packtpub.mastering. testing. common.Data@lSe.value 

Thread-1 at com. javferna.packtpub.mastering.testing.common.Data. increment (Data. java:12) 
“ WRITE: putfield com. javferna.packtpub.mastering. testing. common.Data. value 

Thread-2 at com. javferna.packtpub.mastering.testing.common.Data. increment (Data. java:12) 
” READ: getfield com. javferna.packtpub.mastering. testing. common.Oata.value 





2665 OES ESSE SSE SSS LI snapshot #1 
thread java. lang. Thread: {id:0,name:main, status: WAITING, priority:S, isDaemon: false, lockCount:@, suspendCount:@)} 
waiting on: java. lang. Thread@160 
call stack: 
at java. lang. Thread. join(Thread. java) 
at com, javferna.packtpub.mastering.testing.main.MainNumber .main(MainNumber .java:20) 


thread java. lang. Thread: {id:1,name:Thread-1, status: RUNNING, priority:5, isDaemon: false, lockCount:0, suspendCount:@} 
call stack: 
at com. javferna.packtpub.mastering.testing.common.Data.increment(Data. java:13) 
at com. javferna.packtpub.mastering. testing. task.NumberTask.rcun(NumberTask. java:17) 


thread java. lang. Thread: {id:2,name:Thread-2, status: RUNNING, priority:5S, isDaemon: false, lockCount:@, suspendCount:@} 
call stack: 


at com. javferna.packtpub.mastering. testing. common.Data.increment(Data. java:12) 
at com. javferna.packtpub.mastering. testing. task.NumberTask.run(NumberTask. java:17) 


还 会 看 到 CoverageAnalyzer 监 听 器 输出 这 样 的 信息 。 


wen Coverage statistics 





wovevovencoosesss aa Class Coverage mom 
bytecode line basic-block branch methods location 


- - [Ljava. io.0bjectStressfield; 
- = {i fave.leng.String; 
(i fave. lang. Theead$state; 
[X fava. lang. Thread; 
(Ljave.util .nashtablesintry; 
s 


站 - = Å. byte 
09,80 (16/20) @,75 (6/8) @,8@ (4/5) * @,75 (3/4) com. javferna.packtpub. mastering. testing.commen.Date 
@,89 (47/53) @,77 (10/13) @,83 (15/18) 1,00 (2/2) @,5@ (3/2) com. javferns.packtpub.eastering. testing .eain.Meintueber 
1,00 (18/18) 1,00 (6/6) 1,00 (7/7) 1,00 (1/1) 1,00 (2/2) com, javferns. packtpub.eastering. testing. task. NusberTask 
- - - - - double 
s 加 z = š float 
@,00 (0/3) @,08 (6/1) @,08 (0/2) ° @,0@ (6/1) gov.nasa. pf .BoxdojectCaches 
@,00 (0/31) 0,00 (0/11) @,00 (0/37) @,00 (0/2) 0,00 (0/6) gov. nase. Spf .ConsoledutputStreas 
8,00 (0/36) @,00 (0/13) 6,00 (0/19) @,00 (0/3) ©,00 (6/5) gov. nase. jpf.FinalizerThread 
2 


JPF 是 非常 强大 的 应 用 程序 ， 其 中 还 含有 更 多 监听 器 和 扩展 机 制 。 
可 以 通过 网 址 http://babelfish.arc.nasa.gov/trac/jpf/wiki 查 看 其 完整 文 
档 。 


12.4 小结 


测试 并 发 应 用 程序 是 一 项 非常 困难 的 任务 。 线 程 的 执行 顺序 无 法 保证 
(除非 在 应 用 程序 中 引入 了 同步 机 制 》， 因 此 与 串 行 应 用 程序 相 比 需要 
测试 很 多 不 同 的 情况 。 有 时 ， 应 用 程序 中 出 现 了 错误 ， 但 是 无 法 重 现 ， 
因为 这 些 错误 仪 在 非常 罕见 的 情况 下 出 现 。 有 了 时， 由 于 便 件 或 软件 配置 
的 原因 ， 错 误 只 会 在 特定 机 器 上 出 现 。 


本 章 介 绍 了 一 些 可 以 更 加 方便 地 测试 并 发 应 用 程序 的 机 制 。 首 先 ， 你 学 
习 了 如 何 获 取 Java 并 发 API 中 最 重要 组 件 的 状态 信息 ， 例 如 线程 、 锁 、 

执行 器 或 流 。 需 要 探查 导致 错误 的 原因 时 ， 这 些 信 息 非 常 有 用 。 然 后 ， 
你 学 会 了 如 何 使 用 JConsole 监 视 常 规 Java 应 用 程序 和 特殊 一 点 的 并 发 应 
用 程序 。 最 后 ， 你 学 会 了 如 何 使 用 两 种 不 同 的 工具 测试 并 发 应 用 程序 。 


下 一 章 将 介绍 如 何 使 用 其 他 语言 和 类 库 实 现 并 发 应 用 程序 ， 这 些 语言 和 
类 库 也 可 以 支持 你 实现 面 癌 Java 虚拟 机 的 并 发 应 用 程序 。 你 将 学 到 采用 
Clojure、 含 有 GPars 库 的 Groovy 以 及 Scala 实 现 并 发 应 用 程序 的 基本 原 
则 。 




















第 13 章 JVM 中 的 并 发 处 理 : 
Clojure、 市 有 GPars 库 的 Groovy 以 
K Scala 


Java 是 最 受 欢 迎 的 编程 语言 ， 但 并 不 是 实现 Java 虚 拟 机 JVM) 程序 的 
唯一 编程 语言 。 维 基 百 科 的 “List of JVM languages” 中 列 出 了 所 有 可 实现 
JVM 程 序 的 语言 。 其 中 一 些 是 已 有 语言 面向 JVM 的 实现 ， 例 如 

JRuby (Ruby 编 程 语言 的 实现 ) 或 Jython (Python 编程 语言 的 实现 ) 。 
其 他 一 些 语言 遵循 不 同 的 编程 范式 ， 例 如 Clojure 是 一 种 函数 式 编程 语 
言 。 还 有 一 些 则 是 脚本 语言 和 动态 编程 语言 ， 例 如 Groovy。 这 些 语言 大 
多 可 以 和 Java 语 言 很 好 地 集成 。 实 际 上 ， 可 以 在 这 些 编程 语言 中 直接 使 
用 Java 元 素 ， 包 括 像 Thread 对 象 或 执行 器 这 样 的 并 发 元 素 。 有 些 语言 还 
实现 了 自己 的 并 发 模型 。 本 章 将 对 其 中 三 种 语言 提供 的 并 发 元 素 进 行 简 

















e Clojure: 提供 Atom、Agent 等 引用 类 型 ， 以 及 Future 和 Promise 等 其 
他 元 素 。 

e Groovy: 通过 GPars 库 提供 面 问 数据 并 行 化 处 理 的 元 素 ， 它 拥有 上 自 
己 的 Actor 模 型 、Agent 和 Dataflow。 

e Scala: 提供 Future 和 Promise 两 个 元 素 。 


13.1 ”Clojure 的 并 发 处 理 


Clojure 是 一 种 动态 、 通 用 的 函数 式 编程 语言 ， 它 基于 Rich Hickey 创 建 的 
Lisp 编 程 语言 。 可 在 Clojure 官 网 下 载 该 语言 的 最 新 版 本 (撰写 本 书 时 是 
1.8.0 版 ， 还 可 以 找到 有 关 使 用 Clojure 进 行 编程 的 文档 和 指南 。 你 可 以 
在 最 流行 的 Java IDE《〈 如 Eclipse) 中 安装 Clojure 文 持 环境 。 另 一 个 有 用 
的 网 页 是 http://clojure-doc.org， 可 以 在 上 面 找到 社区 驱动 的 Clojure 编 程 
语言 文档 站 点 。 


本 节 将 介绍 Clojure 编 程 语言 中 最 重要 的 并 发 元 素 及 其 用 法 。 本 章 不 打算 
介绍 Clojure 编 程 语言 ， 读 者 可 以 查看 相关 评论 网 站 ， 学 习 如 何 使 用 
Clojure 编 程 。 


Clojure 编 程 语言 的 设计 目标 之 一 是 使 并 发 编程 更 加 容易 。 针 对 这 一 目 
标 ， 要 注意 两 个 重要 事项 。 
© Clojure 数 据 结构 是 不 可 变 的 ， 所 以 它们 可 以 在 线程 之 间 共 至 而 不 会 
有 任何 问题 。 稍 后 你 就 会 看 到 ， 这 并 不 意味 着 并 发 应 用 程序 中 不 能 


拥有 可 变 值 。 
。 Clojure 将 标识 和 值 的 概念 区 分 开 来 ， 几 乎 消除 了 对 显 式 锁 的 需要 。 


下 面 介绍 一 下 Clojure 编 程 语言 提供 的 最 重要 的 并 发 结构 。 




















13.1.1 使 用 Java 元 素 


使 用 Clojure 编 程 时 ， 可 以 使 用 所 有 的 Java 元 素 〈 包 括 并 发 元 素 ) ， 因 此 
可 以 创建 线程 或 执行 器 ， 或 者 使 用 Fork/Join 框 架 。 然 而 这 并 不 是 一 种 好 
的 实践 方法 ， 因 为 Clojure 本 映 提 供 了 更 简单 的 并 发 编程 ， 但 是 可 以 显 式 
地 创建 一 个 “Thread， 如 以 下 代码 块 所 示 : 





(ns example.example1) 


(defn example1 ( [number] 
(println (format "%s : %d"(Thread/currentThread) number) ) 
)) 





(dotimes [i 10] (.start (Thread. (fn[] (examplel I))))) 


在 这 段 代 码 中 ， 首 先 ， 定 义 一 个 名 为 example1 的 函数 ， 它 接收 一 个 数 
值 作 为 参数 。 在 该 函数 内 部 ， 编 写 关 于 执行 该 函数 的 Thread 的 信息 ， 
以 及 参数 中 的 number 值 。 


然后 ， 创 建 并 执行 10 个 Thread 对 象 。 每 个 线程 都 将 调用 函 
数 examplel。 


在 下 面 的 截图 中 ， 可 以 看 到 这 段 代 码 的 执行 结果 。 


Thread[Thread-3,5,main] : 8 
Thread[Thread-18,5,main] : 7Thread[Thread-9,5,main] : 6 





Thread[Thread-11,5,main] : 8 

Thread[Thread-12,5,main] : 9 

Thread[Thread-4,5,main] : 1 

Thread[Thread-5,5,main] : 2 

Thread[Thread-8,5,main] : 5 

Thread[Thread-6,5,main] : 3 

Thread[Thread-7,5,main] : 4 

nREPL server started on port 52448 on host 127.0.0.1 - nrepl://127.0.0.1:52448 





ee Ae et baa CMa a 
< 同 的 。 


13.1.2 引用 类 型 


如 前 所 述 ，Clojure 数 据 结 构 不 可 变 ， 但 是 Clojure 提 供 了 一 些 机 制 ， 允 许 
使 用 引用 类 型 处 理 可 变 变量 。 根 据 协 调 还 是 不 协调 ， 同 步 还 是 异步 ， 可 
以 对 引用 类 型 进行 分 类 。 


协调 型 : 两 个 或 多 个 操作 相互 协作 时 。 

不 协调 型 : 该 操作 不 对 其 他 操作 产生 影响 时 。 
同步 型 : 调用 者 等 竺 操作 结束 时 。 

异步 型 : 调用 者 不 等 竺 操作 结束 时 。 


Clojure 编 程 语言 中 最 重要 的 引用 类 型 有 如 下 几 种 。 





e Atom 
e Agent 
e Ref 


下 面 一 起 了 解 一 下 如 何 使 用 这 些 元 素 。 
01. Atom% 


Atom 本 质 上 是 对 Java 编 程 语言 的 原子 引用 。 这 种 变量 的 变化 对 所 有 
线程 立即 可 见 。 我 们 将 用 下 面 的 函数 处 理 Atom， 它 们 是 一 种 不 协 
调 而 且 同 步 的 引用 类 型 。 


e atom: 定义 一 个 新 的 Atom 对 象 。 

e swap!: 根据 函数 的 结果 ， 将 Atom 的 值 原 子 地 更 改 为 新 值 。 它 
遵循 (swap! atom function) 格 式 ， 其 中 atom 是 Atom 对 象 的 
名 称 ， 而 function 是 返回 Atom 新 值 的 函数 。 

reset!: 将 Atom 的 值 设 置 为 新 值 。 它 遵循 (reset! atom 
value) 格 式 ， 其 中 atom 是 Atom 对 象 的 名 称 ， 而 value 是 该 
Atom 对 象 的 新 值 。 

compare-and-set!: 如 果实 际 值 与 参数 所 传递 的 值 相同 ， 则 
以 原子 方式 改变 Atom 对 象 的 值 。 它 遵循 (compareand-set! 
atom old-value new-value) 格 式 ， 其 中 atom 是 Atom 对 象 
的 名 称 ，old-value 是 Atom 对 象 预 期 的 实际 值 ， 而 new-value 
是 想 要 指派 给 Atom 对 象 的 新 值 。 


下 面 介 绍 一 个 操作 Atom 对 象 的 示例 。 首 先 ， 声 明 一 个 名 为 company 
的 函数 ， 它 接收 两 个 名 为 account 和 salary 的 参数 。 稍 后 将 看 

到 ，account 是 一 个 Atom 对 象 ， 而 salary 是 一 个 数值 。 我 们 使 

用 swap1! 函 数 增 加 account 对 象 的 值 。 然 后 ， 在 控制 台中 输出 执行 
该 函数 的 线程 信息 ， 并 使 用 @(dereferencing) 函 数 来 输出 该 Atom 
对 象 的 实际 值 。 








(ns example.example2) 


(defn company ( [account salary] 


(swap! account + salary) 
(printin (format "%s : %d"(Thread/currentThread) @account) ) 





然后 ， 创 建 一 个 名 为 user 的 类 似 函 数 。 它 接收 Atom 对 象 account 
对 象 和 另 一 个 名 为 money 的 变量 作为 参数 。 我 们 仍然 使 用 swap1! 函 
数 ， 不 过 在 这 种 情况 下 ， 是 为 了 减 小 Atom 对 象 的 值 。 


(defn user ( [account money] 
(swap! account - money) 


(printin (format "%s : %d"(Thread/currentThread) @account) ) 
)) 


然后 ， 创 建 一 个 名 为 myTask 的 函数 ， 它 接收 一 个 名 为 account 的 
Atom 对 象 作 为 参数 ， 并 调用 company 函 数 1000 次 〈 值 为 100) ， 而 
这 样 account 对 象 的 最 终 值 应 该 是 相同 
oP 





(defn myTask ( [account] 
(dotimes [i 1000] 
(company account 100) 


(user account 100) 
(Thread/sleep 100) 
))) 





最 后 ， 将 myAccount 对 象 创 建 为 一 个 Atom 对 象 〈 其 初始 值 为 0) ， 
并 创建 10 个 线程 来 执行 myTask 函 数 。 


(def myAccount (atom @)) 


(dotimes [i 10] (.start (Thread. (fn[] (myTask myAccount) ) ) ) ) 





下 面 的 屏幕 截图 显示 了 这 个 例子 的 执行 情况 。 


Thread[Thread-9,5,main] : 208 
Thread[Thread-7,5,main] : 200 
Thread[Thread-7,5,main] : @ 
Thread[Thread-9,5,main] : 100 
Thread[Thread-5,5,main] : 108 
Thread[Thread-5,5,main] : @ 
Thread[Thread-4,5,main] : 108 
Thread[Thread-4,5,main] : @ 
Thread[Thread-9,5,main] : 108 
Thread[Thread-9,5,main] : @ 





在 该 图 中 ， 可 以 看 到 运行 myTask 函 数 的 不 同 线程 ， 而 且 Atom 对 
象 nyAccount 的 最 终 值 如 预期 那样 为 0。 


02. 


Agent 对 象 


Agent 是 在 将 来 某 个 时 刻 异 步 更 新 的 引用 。 它 在 整个 生命 周期 中 都 
与 某 个 存储 位 置 相关 联 ， 而 你 只 能 改变 该 位 置 的 值 。Agent 是 一 种 
不 协调 的 数据 结构 。 


可 以 通过 以 下 函数 使 用 Agent。 


e agent: 建立 一 个 新 的 Agent 对 象 。 

e send: 确定 Agent 的 新 值 。 它 遵循 (send agent function 
value) 语 法 ， 其 中 agent 是 我 们 想 修 改 的 Agent 的 名 
称 ，function 是 为 计算 Agent 新 值 所 要 执行 的 函数 ， 而 value 
re 将 其 传递 给 function 可 以 计算 Agent 的 新 
值 。 

e send-of: 当 想 要 使 用 水 数 来 更 新 一 个 阻塞 型 函数 的 值 〈 例 
如 ， 读 取 一 个 文件 ) 时 ， 可 以 使 用 该 函数 。send-of 阔 数 将 立 
即 返 回 ， 而 且 用 于 更 新 Agent 值 的 函数 将 在 男 一 个 线程 中 继续 
执行 。 它 遵循 与 send 函 数 相同 的 语法 。 

。 await: 等 待 〈 阻 塞 当前 线程 ) ， 直 到 Agent 所 有 未 完成 的 操作 
完成 为 止 。 它 遵循 语法 (await agent)， 其 中 agent 是 要 等 待 
的 Agent 的 名 称 。 

e await-for: 对 于 实际 的 Agent， 你 可 以 使 用 该 函数 等 待 其 参 
数 指定 的 宣 秒 数 。 该 函数 返回 一 个 布尔 值 ， 以 指示 Agent 是 人 否 
已 被 更 新 。 它 遵循 语法 (await-for time agent)， 其 中 
agent 是 Agent 的 名 称 ， 而 time 是 要 等 待 的 毫秒 数 。 

e agent-error: 如 果 Agent 出 现 故 障 ， 则 返回 Agent 抛 出 的 异 
和 常 。 它 遵循 语法 (agent-error agent)， 其 中 agent 是 Agent 
的 名 称 。 

e shutdown-agents: 结束 处 于 运行 状态 的 Agent 的 执行 。 该 函 
数 遵循 (shutdown-agents ) 语 法 。 


下 面 来 看 一 个 例子 ， 感 受 一 下 如 何 使 用 Agent。 
首先 ， 创 建 一 个 Agent， 其 初始 值 为 300。 


(ns example.example3) 
(def myAgent (agent 366)) 








然后 ， 实 现 一 个 名 为 myTask 的 函数 。 我 们 将 重复 如 下 过 程 : 首先 
使 用 send 方 法 将 Agent 的 值 增 加 1000 倍 ， 然 后 用 send 方 法 将 其 递 
减 ， 这 样 Agent 的 最 终 值 就 应 该 是 相同 的 。 





(defn myTask ( [a] 
(dotimes [i 1000] 
(send a + 100) 
(send a - 100) 


(println (format "%s : %d"(Thread/currentThread) @a)) 
(Thread/sleep 100) 


))) 


最 后 ， 创 建 10 个 线程 来 执行 hyTask 函 数 。 





(dotimes [i 10] (.start (Thread. (fn[] (myTask myAgent) )))) 


下 面 的 屏 大 截图 显示 了 执行 本 例 时 的 输出 。 


Thread[Thread-7,5,main] : 300 
Thread[Thread-5,5,main] : 300 
Thread[Thread-8,5,main] : 300 
Thread[Thread-3,5,main] : 300 
Thread[Thread-12,5,main] : 300 
Thread[Thread-6,5,main] : 300 
Thread[Thread-1@,5,main] : 300 
Thread[Thread-8,5,main] : 300 
Thread[Thread-3,5,main] : 300 
Thread[Thread-6,5,main] : 300 





在 该 屏幕 截图 中 可 以 看 到 ， 有 不 同 的 线程 执行 nyTask 函 数 ， 而 且 
Agent 的 值 像 预期 那样 最 后 达到 300。 


13.1.3 Ref 对 象 
最 后 ， 来 看 看 Ref 对 象 。 这 类 对 象 是 Clojure 中 唯一 的 协调 引用 类 型 ， 也 


征 一 种 同步 数据 结构 。 这 类 对 象 允许 在 事务 处 理 中 并 发 地 修改 多 个 引 
用 ， 因 此 要 么 所 有 引用 都 被 修改 ， 要 么 任何 一 个 引用 都 不 被 修改 。 





可 以 使 用 下 述 函 数 操作 Ref 对 象 。 


e ref: 创建 一 个 新 的 Ref 对 象 。 

。 alter: 该 函数 以 安全 方式 修改 引用 值 的 取 值 。 它 遵循 语法 (alter 
ref function)， 其 中 ，ref 是 要 修改 的 Ref 对 象 名 称 ， 

而 fucntion 是 用 于 获取 该 引用 的 新 值 的 函数 。 

。 ref-set: 该 集合 确定 了 Ref 对 象 的 值 。 它 遵循 语法 (ref-set ref 
value)， 其 中 ref 是 要 修改 的 Ref 对 象 的 名 称 ， 而 value 是 Ref 对 象 
的 新 值 。 

。 conmute: 该 函数 也 可 改变 Ref 的 值 ， 它 遵循 语法 (conmute ref 

function)， 其 中 ref 是 想 要 修改 的 Ref 对 象 的 名 称 ， 而 function 

则 是 计算 Ref 新 值 的 函数 。 

dosync: 以 事务 处 理 的 方式 执行 参数 所 传递 的 表达 式 。 如 果 在 表 

达 式 执行 期 间 发 生 异 常 ， 则 不 会 执行 与 Ref 对 象 相关 的 操作 。 男 一 

方面 ，alter 函 数 和 commuted 函 数 都 必须 在 dosync 函 数 内 部 执 

行 。 它 遵循 语法 (dosync expression)， 其 中 expression 是 待 执 

行 的 表达 式 。 


下 面 看 一 个 操作 Ref 对 象 的 例子 。 


首先 ， 声 明 名 为 account1 和 account2 的 两 个 对 象 ， 并 且 将 它们 初始 化 
为 0。 





(ns example.example4) 
(def account1 (ref @)) 
(def account2 (ref @)) 


然后 ， 定 义 一 个 名 为 myTask 的 函数 ， 它 将 收 名 为 source 和 
destination 的 两 个 Ref 对 象 作 为 参数 。 我 们 减 小 source 的 值 并 增 

加 destination 的 值 1000 次 ， 就 像 两 个 银行 账户 之 间 的 交易 一 样 。 我 们 
使 用 alter 函 数 来 改变 Ref 对 象 的 值 ， 因 此 在 dosync 函 数 中 必须 包含 对 
它 的 两 次 调用 。 





(defn myTask ( [source, destination] 
(dotimes [i 1000] 
(dosync 
(alter source - 100) 
(alter destination + 100) 
) 


(println (format "%s : %d - %d"(Thread/currentThread) 
@source @destination) ) 
(Thread/sleep 100) 





最 后 ， 创 建 10 个 线程 来 调用 myTask 函 数 ， 其 中 源 是 account1， 目 标 
是 account2; 再 创建 另外 10 个 线程 来 调用 myTask 函 数 ， 其 中 源 
是 account2， 目 标 是 account1。 


(dotimes [i 10] (.start (Thread. (fn[] (myTask account1 account2))))) 
(dotimes [i 10] (.start (Thread. (fn[] (myTask account2 account1))))) 





MHIE ree tke RI ce AN S BATAAN HT T ET o 


Thread[Thread-12,5,main] : -400 - 460 
Thread[Thread-16,5,main] : 300 - -300 
Thread[Thread-15,5,main] : 2090 - -200 
Thread[Thread-3,5,main] : -300 - 300 
Thread[Thread-8,5,main] : -300 - 300 
Thread[Thread-18,5,main] : 200 - -200 
Thread[Thread-19,5,main] : 100 - -100 
Thread[Thread-21,5,main] : © - ð 

Thread[Thread-12,5,main] : -100 - 100 
Thread[Thread-15,5,main] : © - ð 


在 该 屏幕 截图 中 ， 可 以 看 到 执行 myTask 函 数 的 不 同 线程 ， 以 及 两 个 引 
用 的 最 终 值 像 预想 的 那样 为 0。 


13.1.4 Delay 


Delay 是 一 种 数据 结构 ， 当 其 被 解 引 用 后 才 进 行 首 次 计算 以 获取 值 。 可 
以 使 用 下 述 函 数 操作 Delay。 


e delay: 使 用 该 函数 声明 一 个 新 的 Delay。 

© @: 这 是 解 引 用 函数 。 可 以 使 用 它 读 取 Delay 的 值 。 

e realized?: 该 函数 将 返回 一 个 布尔 值 ， 用 于 指示 Delay 是 否 已 初 
始 化 。 


下 面 来 看 一 个 关于 Delay 的 例子 。 


首先 ， P, OLGA GME ag 在 这 三 个 对 象 
Ps 我 们 将 存储 一 当前 日 期 的 字符 串 。later 对 象 将 被 定义 为 一 
Delay. 








(ns example.examples) 


(def now (.toString (java.util.Date. ))) 
(def otherNow (.toString (java.util.Date. ))) 
(def later (delay (.toString (java.util.Date. )))) 





然后 ， 定 义 myTest 函 数 。 首 先 ， 输 出 now 变 量 的 值 。 然 后 ， 将 当前 线程 
休 眼 5 秒 钟 ， 然 后 再 输出 otherNow 变 量 和 1later 变 量 的 值 。 对 于 later 
变量 ， 必 须 使 用 解 引用 函数 获得 它 的 值 。 


(defn myTest ([] 
(println (format "%s" now) ) 
(Thread/sleep 5000) 


(printin (format "%s : %s" otherNow @later) ) 


)) 
(myTest) 








下 面 的 屏幕 截图 显示 了 执行 这 个 例子 时 的 输出 结果 。 


|rue May 09 00:57:29 CEST 2017 
Tue May 09 00:57:29 CEST 2017 : Tue May 09 00:57:34 CEST 2017 


EZERK H, Wa PDelay Wi Bika Wen, BBE A ASI 
用 函数 后 才 获 得 值 。 


13.1.5 Future 
Future 是 在 男 一 个 线程 中 计算 的 一 段 代码 。 可 以 使 用 下 面 的 函数 操作 


Future. 


e future: 使 用 该 函数 创建 一 个 新 的 Future。 

e realized?: 使 用 该 函数 可 检验 Future 是 否 已 执行 完成 。 

e 解 引 用 函数 〈@) : 使 用 该 函数 可 获得 Future 的 值 。 调 用 解 引用 函数 
阻塞 当前 线程 ， 直到 Future 执 和 J 完成 并 返回 值 为 止 。 


。 deref: 使 用 该 函 数 阻塞 当前 线程 一 段 时 间 。 如 果 该 时 间 间 隔 结束 
后 Future 仍 未 完成 执行 ， 那 么 该 函数 返回 。 


下 面 看 一 个 使 用 Future 的 例子 。 
首先 ， 声 明 一 个 名 为 initializeEnv 的 函数 ， 访 函数 让 其 执行 线程 休 眼 


1 秒 名 该 夯 数 条 出 关于 执行 这 段 代码 的 线程 的 信息 ， 最 后 
回 "Ok" 值 。 





(ns example.example6) 


(def initializeEnv ( future 
(printin (format "%s : Initializing environment" (Thread/currentThread) ) ) 


(Thread/sleep 1000) 
(println (format "%s : Environment initialized" (Thread/currentThread) ) ) 
"Ok " 


)) 





然后 ， 声 明 另 一 个 名 为 jnitilizeApp 的 函数 。 该 函数 
与 initializeEnv 函 数 等 价 ， 只 不 过 它 将 使 执行 线程 休眠 3 秒 钟 。 


(def initializeApp ( future 
(println "Initializing app") 
(Thread/sleep 3000) 

(printin "Environment app") 
"Ok" 
)) 


最 后 ， 使 用 一 组 命令 调用 realized? 函 数 和 解 引用 函数 。 





(println (realized? initializeEnv) ) 
(printin (realized? initializeApp) ) 
(println @initializeEnv) 


(printin (realized? initializeEnv) ) 
(printin (realized? initializeApp) ) 
(println @initializeApp) 





执行 该 代码 时 ， 可 以 看 到 两 个 Future 在 同一 时 间 局 动 执 

行 ，initializeEnv 函 数 首 先 结束 执行 ， 而 且 initializeEnv 将 

器 realized? 函 数 返回 true 值 。 然 后 ，initilizeApp 函 数 将 结束 其 执 
行 。 


13.1.6 Promise 


Promise 是 与 Future 相 类 似 的 一 种 机 制 。 主 要 的 区 别 在 于 它 并 不 会 计算 某 
段 代 码 ; 你 要 显 式 地 确定 它 的 值 。 可 用 于 Promise 的 函数 如 下 所 示 。 


e promise: 使 用 该 函数 可 创建 一 个 新 的 Promise。 

e realized?: 使 用 该 函数 可 以 检查 Promise 是 否 有 值 。 

e 解 引用 函数 (@) : 使 用 该 函数 可 以 获取 Promise 的 值 。 调 用 解 引 用 
函数 阻塞 当前 线程， 直到 Promise 完 成 其 执行 并 且 返 回 值 为 止 。 

e deref: 使 用 该 函数 来 阻塞 当前 线程 一 段 时 间 。 如 果 这 段 时 间 结 束 
且 Promise 尚 未 完成 执行 ， 则 该 函数 返回 。 

e deliver: 使 用 该 函数 来 确定 Promise 的 返回 值 。 


让 我 们 看 一 个 使 用 Promise 的 例子 。 首 先 ， 定 义 一 个 名 为 myPromise 的 
新 Promise。 


(ns example.example7) 
(def myPromise (promise)) 
然后 ， 创 建 一 个 名 为 myTest 的 函数 ， 它 将 接收 一 个 Promise 作 为 参数 。 


等 竺 5 秒 钟 ， 然 后 在 验证 该 Promise 没 有 值 之 后 ， 使 用 deliver 函 数 为 其 
确定 值 。 





(defn myTest ([p] 
(def now (java.util.Date. ) ) 
(println (format "Start : %s" now)) 
(Thread/sleep 5000) 


(def now (java.util.Date. ) ) 
(println (format "End : %s" now)) 
(println (realized? p)) 

(deliver p "ok") 











最 后 ， 启 动 一 个 线程 来 执行 myTest 函 数 ， 并 且 使 用 realized? 函 数 和 
解 引 用 函数 来 验证 Promise 是 否 有 值 ， 并 且 将 其 输出 。 





(def now (java.util.Date. )) 
(printin (format "Main : %s" now)) 
(println (realized? myPromise) ) 


(println @myPromise) 

(def now (java.util.Date. )) 
(printin (format "Main : %s" now)) 
(println (realized? myPromise) ) 








下 TAL AY Bt ree tek RR AN SAT ASB Js Ba AR o 


Main : Tue May 69 01:12:13 CEST 2617 
false 

Start : Tue May @9 81:12:13 CEST 2017 
End : Tue May @9 01:12:18 CEST 2017 
false 

ok 

Main : Tue May @9 01:12:18 CEST 2017 
true 


13.2” Groovy 及 其 GPars 库 的 并 发 处 理 


Groovy 是 面向 Java 平 台 的 一 种 动态 的 、 面 问 对 象 的 编程 语言 ， 类 似 于 
Python、Ruby 或 Perl。GPars 是 面 同 Groovy 和 Java 的 并 发 处 理 与 并 行 框 
染 ， 它 引入 了 大 量 的 类 和 元 素来 简化 并 行 编程 。 最 重要 的 几 点 如 下 。 


数据 并 行 处 理 : 提供 了 支持 并 行 处 理 数据 结构 的 机 制 。 
Fork/Join 人 处理 : 允许 你 使 用 分 治 技术 来 实现 并 发 算法 。 
Actor: 实现 了 一 个 基于 消息 传递 的 并 发 模型 。 

Dataflow: 人 允许 采用 一 种 蔡 代 并 友 模 型 来 并 发 处 理 数 据 。 
Agent: 受 13.1 节 介绍 的 Clojure 编 程 语言 所 提供 的 Agent 启 发 。 











13.3 ”软件 事务 性 内 存 


软件 事务 性 内 存 是 一 种 机 制 ， 它 为 程序 员 在 内 存 中 访问 数据 提供 了 事务 
性 语义 。 本 节 ， 你 将 学 习 如 何在 Groovy 中 应 用 这 些 元 素 。 尽 管 我 们 并 没 
有 介绍 Groovy 编 程 语言 ， 但 是 你 可 以 通过 互联 网 查找 到 很 多 关于 Groovy 
编程 语言 的 教程 。 在 GPars 的 主页 可 以 下 载 该 库 并 碍 找 有 关 如 何 使 用 它 
们 的 文档 。 正 如 前 面 提 到 的 ， 你 还 可 以 在 Java 编 程 语 言 中 使 用 该 库 。 





13.3.1 使 用 Java 元 素 


Groovy 是 一 种 针对 JVM 生 成 字 节 人 码 的 编程 语言 。 你 可 以 在 Groovy 程 序 中 
使 用 Java 编 程 语 言 的 所 有 元 素 ， 包 括 与 并 发 处 理 相 关 的 所 有 元 素 。 


例如 ， 在 下 面 的 例子 中 ， 你 将 创建 一 个 线程 。 首 先 ， 使 用 main( ) 方 法 
声明 一 个 名 为 Examplel 的 Groovy 类 。 


class Examplel { 
static main(args) { 
然后 ， 使 用 Thread 类 的 start() 方 法 创建 并 执行 一 个 线程 。 你 可 以 指定 


要 由 该 线程 执行 的 代码 。 在 本 例 中 ， 我 们 将 显示 当前 日 期 ， 休 眠 当前 线 
程 1 秒 钟 ， 然 后 再 次 写 入 当前 日 期 。 








def task = Thread.start { 
println Thread.currentThread().getName()+": Starting the thread: 
"+new Date(); 


Thread. currentThread().sleep(10@@) ; 
println Thread. currentThread().getName()+": Ending the thread: 
"+new Date(); 





可 以 使 用 join() 方 法 来 等 待 该 线程 结束 。 


task.join(); 
println Thread.currentThread().getName()+": Main has ended: " 


+new Date(); 





当 执 行 该 应 用 程 厅 时 ， 你 将 看 到 该 线程 显示 了 第 一 个 消 轧 ， 并 且 在 一 秒 
钟 后 显示 第 二 个 消息 。 然 后 ， 当 它 完 成 执行 时 ，main() 方 法 显示 了 它 
ANTE A 


13.3.2 ”数据 并 行 处 理 


在 本 节 中 ， 我 们 将 采用 Groovy 编 程 语言 提供 的 所 有 元 素 以 并 发 方式 处 理 
数据 结构 。 我 们 要 考虑 的 第 一 个 元 素 是 GParsPoo1 类 。 这 个 类 是 基于 
Fork/Join 框 架 的 JSR-166y 的 实现 ， 它 在 以 并 发 方式 处 理 数据 结构 方面 性 
能 非常 好 。 


我 们 来 看 一 个 使 用 GParsPool 类 的 例子 。 首 先 ， 我 们 要 包含 必要 的 
import 语 句 。 然 后 ， 使 用 main( ) 方 法 创建 一 个 名 为 Example2 的 类 。 











import groovyx.gpars.GParsPool 
import static groovyx.gpars.GParsPool.withPool 


class Example2 { 
static main(args) { 





然后 ， 声 明 一 个 从 1 到 1000 的 数值 范围 ， 并 使 用 withPool 语 句 以 并 行 方 
式 处 理 这 些 全 部 数值 。 我 们 使 用 print1ln 方 法 来 输出 处 理 该 数值 的 线程 
名 称 ， 以 及 当前 处 理 的 数值 。 可 以 使 用 让 变量 来 访问 该 数值 。 


def numbers = 1..1000; 
println "Example 2 - Part 1" 
withPool { 
numbers.eachParallel { 
println Thread.currentThread().getName() +": "+ it; 
} 
} 


然后 ， 使 用 withPool 语 句 ， 不 过 现在 该 语句 带 有 一 个 表示 可 使 用 的 最 
大 线程 数 的 参数 。 











println "Example 2 - Part 2" 
withPool(4){ 
List numberList = numbers.collectParallel { it *it} 
List smallNumberList = numberList.findAllParallel{ it < 100 } 
smallNumberList.eachParallel { 
println Thread.currentThread().getName() +": "+ it; 
} 


} 


我 们 使 用 Groovy 提 供 的 三 种 方法 并 行 处 理 该 范围 内 的 数值 。 可 以 使 

用 collectParallel() 方 法 来 计算 每 个 数值 的 平方 。 可 以 使 

用 findA1L1Parallel() 方 法 来 进行 数值 科 选 ， 只 接收 那些 小 于 100 的 数 
最 后 ， 可 以 使 用 eachParallel() 方 法 来 处 理 结果 列表 的 所 有 方 

法 。 


可 以 使 用 其 他 方法 并 行 处 理 符合 某 种 数据 结构 的 数据 ， 例 如 
minParallel()、maxParallel() 或 countParallel()。 通 过 查看 
GPars API 可 以 了 解 这 些 方法 的 所 有 详细 信息 。 


以 下 屏幕 截图 显示 了 该 应 用 程序 的 执行 情况 。 


Example 2 - Part 2 
ForkJoinPool-2-worker-2: 25 
ForkJoinPool-2-worker-1: 1 
ForkJoinPool-2-worker-2: 36 
ForkJoinPool-2-worker-1: 4 
ForkJoinPool-2-worker-4: 9 
ForkJoinPool-2-worker-3: 16 
ForkJoinPool-2-worker-2: 49 
ForkJoinPool-2-worker-2: 64 
ForkJoinPool-2-worker-2: 61 





GParsPool 类 提供 的 男 一 个 选项 是 使 用 callAsync() 

或 executeAsyncAndWait() 方 法 在 不 同 的 线程 中 调用 闭 包 。 第 一 个 方 
法 在 不 同 的 线程 中 启动 闭 包 的 执行 ， 并 且 立 即 返 回 ; 而 男 一 个 方法 则 在 
返回 之 前 等 待 闭 包 结 束 。 让 我 们 来 看 一 个 使 用 这 些 函 数 的 例子 。 


首先 ， 我 们 包含 import 语 句 ， 并 且 使 用 main() 方 法 创建 一 个 名 
为 Example3 的 新 类 。 在 main( ) 方 法 中 ， 创 建 两 个 名 为 codel 和 code2 的 
闭 包 。 





import groovyx.gpars.GParsPool 


class Example3 { 
static main(args) { 


Closure codel = { 
println "Closure 1: "+Thread.currentThread().getName()+": Start:" 
+new Date(); 
Thread. currentThread().sleep(10e0@) 
println "Closure 1: "+Thread.currentThread().getName()+": End: " 
+new Date(); 


} 


Closure code2 = { 
println "Closure 2: "+Thread.currentThread().getName()+": Start:" 
+new Date(); 
Thread. currentThread().sleep(20@@) 
println "Closure 2: "+Thread.currentThread().getName()+": End: " 
+new Date(); 








首先 ， 使 用 Groovy 的 普通 语法 按 顺 序 调用 两 个 财 包 。 


println "Closure 1 sequential" 
code1.call1(); 
println "Closure 2 sequential" 
code2.call1(); 





然后 ， 使 用 GParsPoo1 类 的 withPool 方 法 ， 调 用 callAsync() 方 法 以 
并 发 方式 执行 code1 闭 包 ， 然 后 使 用 GParsPoo1 类 的 
executeAsyncAndWait() 方 法 来 执行 code1 闭 包 和 code2 闭 包 。 


GParsPool.withPool { 
println "Closure 1 async"; 
code1.callAsync(); 
println "Closure 1 and closure 2 async with wait" 
GParsPool.executeAsyncAndWait (code1, code2) ; 


printin "End" 
} 


println "Main end" 


} 
} 


下 面 的 屏幕 截图 显示 了 执行 本 例 后 的 输出 。 








Closure 1 sequential 

Closure 1: main: Start: Tue May 09 01:44:19 CEST 2017 

Closure 1: main: End: Tue May @9 01:44:20 CEST 2017 

Closure 2 sequential 

Closure 2: main: Start: Tue May 09 01:44:20 CEST 2017 

Closure 2: main: End: Tue May @9 @1:44:22 CEST 2017 

Closure 1 async 

Closure 1 and closure 2 async with wait 

Closure 1: ForkJoinPool-1-worker-1: Start: Tue May @9 @1:44:22 CEST 2017 
Closure 1: ForkJoinPool-1-worker-2: Start: Tue May 09 01:44:22 CEST 2017 
Closure 2: ForkJoinPool-1-worker-3: Start: Tue May @9 @1:44:22 CEST 2017 
Closure 1: ForkJoinPool-1-worker-1: End: Tue May @9 @1:44:23 CEST 2017 
Closure 1: ForkJoinPool-1-worker-2: End: Tue May 09 01:44:23 CEST 2017 
Closure 2: ForkJoinPool-1-worker-3: End: Tue May 09 01:44:24 CEST 2017 
End 

Main end 


可 以 看 到 ， 可 以 方便 地 区 分 财 包 的 顺序 执行 和 并 发 执行 《通过 线程 的 名 
称 ) 。 


GParsPool 类 的 男 一 个 选项 是 使 用 Map/Reduce 编 程 模型 来 并 行 处 理 任何 
数据 结构 。 当 你 在 Groovy 中 使 用 Map/Reduce 时 ， 你 的 数据 结构 在 内 部 转 
换 为 一 个 并 行 数组 ， 你 使 用 的 所 有 方法 都 将 作用 于 该 数据 结构 。 它 类 似 
于 Java 编 程 语言 中 的 流 处 理 。 


让 我 们 看 一 个 使 用 这 一 功能 的 例子 。 首 先 ， 引 入 必要 的 import 语 句 ， 并 
有 旦 创建 一 个 名 为 Example4 的 新 类 ， 其 中 含有 main() 方 法 。 在 该 方法 
中 ， 声 明 一 个 1 到 10 000 之 间 的 范围 。 











import groovyx.gpars.GparsPool 


class Example4 { 


static main(args) { 
def numbers = 1..10000 





然后 ， 使 用 withPool 语 句 和 Fork/Join 功 能 以 并 行 方式 处 理 该 范围 中 的 
数值 。 我 们 使 用 parallel 方 法 将 该 数值 范围 转换 成 一 个 并 行 数据 结 

构 ， 使 用 map 方 法 将 每 个 元 素 替 换 为 该 元 素 的 平方 ， 使 用 filter 方 法 只 
保留 那些 小 于 100 000 的 数值 ， 使 用 sum 方 法 对 列表 中 的 所 有 元 素 求 和 。 





GParsPool.withPool { 
int result = numbers.parallel.map{it*it}.filter{it < 100000} 


.SUm( ) ; 
println result; 


然后 ， 我 们 看 看 该 功能 的 其 他 示例 。 动 态 创建 男 一 个 介 于 1 和 1 000 000 
之 间 的 数值 范围 ， 使 用 paralle1 方 法 将 该 范围 转换 成 一 个 并 行 数据 结 
构 ， 使 用 filter 方 法 只 保留 偶数 ， 使 用 map 方 法 将 每 个 数值 丛 换 成 其 平 
方 根 ， 最 后 使 用 collection 方 法 将 并 行 数据 结构 转换 成 一 个 列表 。 


List numberList = (1..1000000).parallel.filter{it % 2 == 6} 
.map{Math.sqrt it}.collection 


numberList.forEach{ 
println it; 





执行 该 示例 时 ， 可 以 在 控制 台中 看 到 输出 的 数值 。 


最 后 ， 关 于 GParsPoo1 类 我 们 要 学 习 的 最 后 一 点 是 如 何 使 用 Promise 来 
获取 异步 函数 的 值 。 让 我 们 看 一 个 使 用 该 功能 的 例子 。 首 先 ， 创 建 一 个 
人 其 中 含有 main() 方 法 ， 以 及 一 个 名 为 code1 的 闭 


import static groovyx.gpars.GParsPool.withPool; 


class Example5 { 


static main(args) { 
Closure code1 = { 


println "Closure 1: "+Thread.currentThread().getName()+": Start:" 
+new Date(); 
Thread. currentThread().sleep(10e0@) 
println "Closure 1: "+Thread.currentThread().getName()+": End: " 
+new Date(); 
return new Date().toString(); 
} 





然后 ， 使 用 withPool 语 名 调用 asyncFun() 方 法 ， 以 异步 方式 执 

行 code1 闭 包 ， 然 后 生成 一 个 含有 该 方法 结果 的 Promise。 最 后 ， 使 用 该 
Promise 的 get() 方 法 来 获得 codel 闭 包 的 结果 。 请 注意 ，get() 方 法 休 
眼 调 用 线程 ， 直 到 闭 包 完成 执行 。 





withPool { 
def aCode1 = codel1.asyncFun(); 
def promise = aCode1(); 
println "We have call the closure"; 


println "The result is : "+promise.get(); 








下 面 的 屏幕 截图 展示 了 执行 本 例 后 得 到 的 输出 结果 。 


We have call the closure 

Closure 1: ForkJoinPool-1-worker-1: Start: Tue May @9 02:14:50 CEST 2017 
Closure 1: ForkJoinPool-1-worker-1: End: Tue May 09 02:14:51 CEST 2017 
The result is : Tue May 09 02:14:51 CEST 2017 


13.3.3 Fork/JoinXh Ft 


GPars 提 供 的 Fork/Join 实 现 类 似 于 Java 并 发 API 中 提供 的 Fork/Join 实 现 。 

该 功能 的 主要 目的 是 利用 分 治 技术 解决 问题 。 第 一 次 执行 该 算法 时 ， 针 
对 的 是 一 个 完整 的 问题 ， 可 以 检查 该 问题 的 规模 。 如 果 其 规模 小 于 预先 
定义 的 规模 ， 则 可 以 直接 解决 问题 。 否 则 ， 你 可 以 将 问题 划分 为 预定 义 
数目 的 小 问题 并 且 进 行 异 步 递 归 调 用 ， 每 个 子 问题 进行 一 次 递归 调用 。 
每 次 递归 调用 的 处 理 过 程 都 是 相同 的 。 你 可 以 再 次 检查 问题 的 规模 ， 如 
果 它 小 于 预定 义 的 规模 ， 就 可 以 直接 进行 求解 ， 盏 则 ， 再 次 分 割 问题 并 
再 次 进行 递归 调用 。 当 所 有 递归 调用 都 结束 后 ， 启 动 这 些 调用 的 方法 将 
再 次 得 到 控制 权 ， 获 取 每 次 调用 的 结果 并 将 这 些 结果 分 组 ， 最 后 返回 结 
果 。 最 后 ， 通 过 分 组 求解 许多 小 问题 ， 我 们 求解 了 一 个 大 规模 问题 。 


请 注意 ， 并 不 是 所 有 的 算法 都 可 以 使 用 这 种 技术 来 求解 ， 但 是 只 要 你 可 
以 使 用 这 种 技术 ， 就 可 以 对 资源 进行 优化 使 用 ， 得 到 非常 好 的 性 能 结 
AR 


GPars 库 提供 了 以 下 方法 来 使 用 Fork/Join 框 架 。 


e runForkJoin(): 该 方法 创建 一 个 Fork/Join 执 行 过 程 。 你 必须 指定 
算法 的 参数 和 实现 该 算法 的 朵 包 。 递 归 调 用 具有 相同 的 参数 。 

e forOffChild(): 创建 一 个 新 的 子 任务 来 执行 子 问题 。 该 任务 将 在 
未 来 执行 。 该 方法 将 待 调度 任务 发 送 到 正在 执行 全 部 任务 的 
ForkJoinPoo1l 中 ， 并 且 立 即 返回 。 

















。 runChildDirectly(): 在 当前 线程 中 运行 子 任务 ， 并 且 当 其 结 
执行 时 返回 。 

e getChildrenResults(): 等 竺 所 有 子 任务 最 终 完 成 ， 并 且 返 回 一 
se 可 以 使 用 该 列表 来 计算 将 由 任务 返回 的 结 


让 我 们 看 一 个 如 何 使 用 GPars 库 的 Fork/Join 框 架 的 示例 。 我 们 将 实现 一 
个 函数 ， 它 计算 目录 中 以 .log 为 扩展 名 的 文件 数目 。 首 先 ， 包 含 必要 的 
import 语 句 并 创建 一 个 名 为 Example6 的 类 ， 其 中 含有 main() 方 法 。 








import static groovyx.gpars.GParsPool.withPool; 
import static groovyx.gpars.GParsPool.runForkJoin; 


class Exampleé { 


static main(args) { 





然后 ， 在 withPoo1 命 令 中 调用 runForkJoin() 方 法 ， 将 File 对 象 作 为 
参数 传递 。 访 File 对 象 含有 我 们 要 开始 寻找 扩展 名 为 .log 的 文件 的 路 
径 。 我 们 必须 指定 算法 的 代码 。 对 于 作为 参数 接收 的 目录 ， 我 们 处 理 其 
中 包含 的 所 有 文件 和 目录 。 如 果 是 文件 ， 检 查 其 扩展 名 是 否 为 log。 如 
果 扩 展 名 是 log， 就 增加 计数 器 的 值 。 如 果 是 目录 ， 那 么 使 

用 forkoffChild() 方 法 进行 异步 递归 调用 。 


当 处 理 完 所 有 的 项 目 后 ， 就 得 到 了 所 有 子 任务 的 结果 ， 并 将 这 些 任 务 的 
结果 和 计数 顷 相 加 。 最 后 的 值 束 是 返回 的 结果 。 





withPool() { 
def count = runForkJoin(new File("c:\\windows")) {file -> 
long count = 6 
file.eachFile { 
if (it.isDirectory()) { 
println "Forking a child task for $it" 
forkOffChild(it) 
} else { 
if (it.getName().endsWith("log")) { 
count++; 
println it.getName() ; 
} 
} 
} 


return count + (childrenResults.sum(0)) 


本 一 | 


要 注意 ， 子 任务 也 可 以 有 子 任务 ， 以 此 类 推 。 最 后 ， 当 初始 调用 结束 
时 ， 输 出 最 终结 果 。 


println "Total: "+ count; 





执行 本 例 时 ， 你 可 以 看 到 文件 的 总 数 。 
13.3.4 Actor 


Actor 实 现 了 消 恩 传递 并 发 模型 。 每 个 Actor 都 是 一 个 独立 的 对 象 ， 它 问 
其 他 Actor 发 送 消息 并 且 接 收 来 自 其 他 Actor 的 消息 。Actor 和 线程 之 间 并 
没有 关联 。 线 程 可 以 执行 不 同 的 Actor， 而 一 个 Actor 也 可 以 由 不 同 的 线 
程 执行 。Actor 没 有 共享 状态 ，GPars 保 证 了 Actor 的 代码 可 被 执行 ， 这 样 
了 驶 不 会 丢失 消息 。 每 当 线 程 被 分 配给 一 个 Actor 时 ， 内 存 也 会 随 之 同 

步 ， 因 此 不 需要 显 式 同 步 。Actor 有 两 种 类 型 。 


。 无 状态 Actor: 基于 DynamicDispatchActor 类 或 
者 ReactiveActor 类 。 它 们 无 法 妃 踪 此 前 兽 有 哪些 消息 到 达 。 

。 有 状态 Actor: 基于 DefaultActor 类 。 该 Actor 可 以 管理 内 部 状 
态 ， 每 个 消息 都 可 以 改变 该 状态 以 及 处 理 该 消息 的 方式 。 


Actor 最 大 的 好 处 之 一 在 于 你 可 以 在 系统 中 获得 吞吐 量 。 只 有 在 需要 处 
理 消 息 时 ， 才 会 执行 Actor， 因 此 你 可 以 拥有 大 量 需 要 少量 线程 运行 的 
Actor。 


当 使 用 Actor 时 ， 你 会 使 用 下 述 方法 来 做 最 常见 的 操作 。 


。 send(): 该 方法 癌 Actor 异 步 发 送 消息 。 访 方法 将 立即 返回 ， 并 不 
会 等 待 啊 应 。 

e sendAndWait(): 该 方法 问 Actor 发 送 消息 并 且 等 待 啊 应 。 

e sendAndContinue(): 该 方法 向 Actor 发 送 消 息 并 且 立 即 返回 。 它 
接收 一 个 闭 包 作为 参数 ， 并 在 该 消息 的 响应 到 达 时 执行 该 闭 包 。 

e sendAndPromise(): 该 方法 回 Actor 发 送 消息 并 且 返 回 一 个 
































Promise， 可 以 通过 该 Promise 来 获得 该 消息 的 啊 应 。 

e react(): 该 方法 将 被 调用 来 处 理 下 一 条 消息 。 通 种 ， 访 方法 会 包 
含 在 一 个 循环 语句 中 ， 以 处 理 Actor 接 收 到 的 所 有 消息 。 

e reply(): 该 方法 回 消 息 的 发 送 者 发 送 应 答 。 

。 forward(): 该 方法 允许 我 们 将 接收 到 的 消息 发 送 给 另 一 
Actor. 

e join(): 该 方法 等 待 Actor 结 束 。 


还 有 其 他 不 同 的 方法 可 以 创建 Actor。 


你 可 以 使 用 Actors 类 的 actor() 方 法 。 在 这 种 情况 下 ， 你 可 以 使 用 闭 包 
来 指定 Actor 的 代码 。Actor 将 立即 开始 执行 


你 可 以 扩展 DefaultActor 类 并 且 实 现 act() 方 法 。 在 这 种 情况 下 ， 我 
们 必须 调用 Actor 的 start( ) 方 法 来 开始 其 执行 过 程 。 


你 可 以 扩展 DynamicDispatchACtor 类 ， 并 且 实 现 onMessage() 方 法 的 
一 个 或 多 个 版 本 〈Actor 可 接收 到 的 每 种 消息 各 一 个 版 本 ) 。 


最 后 ，Actor 有 生命 周期 以 及 一 些 相 关 的 方法 ， 你 可 以 实现 这 些 方法 来 
在 该 生命 周期 的 确定 状态 下 执行 操作 。 这 些 方法 包括 : 


afterStart() 
afterStop() 
onTimeOut ( ) 
onInterrupt() 
onException() 


这 些 方法 的 功能 恰 如 其 名 ， 因 此 无 须 额 外 描述 


下 面 用 三 个 例子 来 说 明 如 何 使 用 Actor。 在 第 一 个 例子 中 ， 仅 创建 两 个 
基本 的 Actor 对 象 ， 并 且 将 在 它们 之 间 发 送 一 条 消息 。 


创建 一 个 名 为 Example7 的 类 ， 其 中 含有 main() 方 法 。 

















import groovyx.gpars.actor.Actor 
import groovyx.gpars.actor.Actors 


class Example7 { 


static main(args) { 


然后 ， 使 用 Actor 类 的 actor() 方 法 创建 一 个 Actor。 在 该 Actor 的 代码 
中 ， 我 们 包含 了 react() 方 法 的 代码 。 在 我 们 的 例子 中 ， 当 消息 到 达 
时 ， 在 控制 台 输 出 它 ， 然 后 发 送 对 该 消息 的 响应 ， 其 中 包括 当前 线程 的 
名 称 和 文本 “Ok”。 


def receiver = Actors.actor { 
println Thread.currentThread().getName()+": Receiver is running" 
react { msg -> 
println Thread.currentThread().getName()+": Recevier: I've 


received a message: "+msg 
reply Thread.currentThread().getName()+": Ok" 


} 


println Thread.currentThread().getName()+": Receiver has finished" 


} 


然后 ， 我 们 再 次 使 用 actors() 方 法 创建 男 一 个 Actor。 在 这 种 情况 下 ， 
我 们 使 用 send () 方 法 向 另 一 个 Actor 发 送 一 条 消息 ， 其 中 还 包含 了 在 
Actor 收 到 消 思 时 react() 方 法 要 执行 的 代码 。 它 将 在 控制 合 中 输出 消 
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def sender = Actors.actor { 
println Thread.currentThread().getName()+": Sender is running" 
receiver.send Thread.currentThread().getName()+": From sender to 
receiver" 
react { msg -> 
println Thread. currentThread().getName()+": Sender: The response 
has arrived: "+msg 


println Thread.currentThread().getName()+": Sender has finished" 


} 


正如 之 前 解释 的 那样 ， 两 个 Actor 都 将 立即 开始 执行 。 最 后 ， 在 main( ) 
方法 中 ， 我 们 使 用 join( ) 方 法 等 待 两 个 线程 结束 。 





sender.join(); 
receiver. join(); 


} 
} 








下 面 的 屏 大 截图 显示 了 执行 本 例 后 的 输出 结果 。 
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: Sender: The response has arrived: Actor Thread 1: Ok 


你 可 以 看 到 发 送 方 发 送 的 消息 如 何 到 达 接 收 方 ， 而 接收 方 如 何 将 应 答 发 


第 二 个 示例 是 生产 者 /消费 者 问题 的 实现 。 首 先 ， 我 们 将 实现 消费 者 
类 。 创 建 一 个 名 为 Consumer 的 类 ， 并 且 指 定 它 实现 DefaultActor 类 。 





import groovyx.gpars.actor.Actor 
import groovyx.gpars.actor.DefaultActor 





class Consumer extends DefaultActor { 


然后 ， 实 现 包 含 Actor 主 代码 的 act() 方 法 。 我 们 使 用 循环 语句 处 理 所 有 
消息 和 react() 方 法 ， 该 方法 将 在 Actor 接 收 到 的 每 条 消息 上 调用 。 我 们 
将 参数 5000 传 递 给 react() 方 法 。 如 果 Actor 等 待 了 5 秒 钟 却 没 有 收 到 消 
息 ， 那 么 它 将 抛 出 一 个 超时 错误 并 结束 其 执行 。 对 于 每 条 消息 ， 我 们 只 
在 控制 台 上 输出 关于 该 消息 和 发 送 方 的 信息 。 


void act() { 
loop { 
react(5000) { msg -> 


printlin 
printin 


printlin 
printin 
println 


ints Re eee ee Ae mg a ge ee nee ene 


"Thread Name: "+Thread.currentThread().getName() ; 
"Sender: "+sender.remoteClass; 


"Message: "+msg; 
a eee ee a ee ee ee ee eee ee 





然后 ， 我 们 执行 Actor 的 一 些 生 命 周 期 方法 ， 以 便 在 控制 台中 输出 有 关 
这 些 事 件 的 信息 。 


void afterStart() { 
println "Consumer: After Start"; 


} 

void afterStop(List undeliveredMessages) { 
println "Consumer: After Stop"; 
println "Undelivered Messages: "+undeliveredMessages.size() 

} 

void onInterrupt(InterruptedException e) { 
println "Consumer: Interrupted" 
e.printStackTrace() 
terminate() 

} 

void onTimeout() { 
println "Consumer: Timeout" 
terminate() 

} 

void onException(Throwable e) { 
println "Consumer: An exception has ocurred" 
e.printStackTrace() 

} 

} 





现在 该 实现 生产 者 类 了 。 创 建 一 个 名 为 Producer 的 类 ， 并 且 指 定 它 实 
现 DefaultActor 类 。 该 类 有 两 个 属性 ， 名 称 分 别 是 发 送 消 息 的 
Producer 和 Consumer， 并 且 使 用 构造 函数 来 初始 化 它们 。 


import java.lang.invoke.AbstractValidatingLambdaMetafactory 
import java.util.List 


import groovyx.gpars.actor.DefaultActor 
import groovyx.gpars.actor.Actor 


class Producer extends DefaultActor { 


private Actor consumer; 

private String name; 

def Producer (Actor consumer, String name) { 
this.consumer = consumer 
this.name = name 


} 








现在 ， 使 用 Actor 的 主 代码 实现 act() 方 法 。 它 将 向 消费 者 发 送 100 条 消 
ELSPA RUT 





void act() { 
def i; 


for (i = ðO; i<100; i++) { 
def msg = Thread. currentThread().getName() 
msg+= ": "+name 
msg+= ": Message "+i; 
consumer.send msg; 
Thread. currentThread().sleep(5@@) ; 





最 后 ， 我 们 编写 afterStop() 方 法 的 代码 ， 该 方法 在 控制 台 输 出 一 条 消 
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void afterStop(List undeliveredMessages) { 
println name+": After Stop"; 
} 
} 





现在 ， 创 建 一 个 名 为 Example8 的 类 ， 其 中 含有 main() 方 法 。 


import groovyx.gpars.actor.Actor 
import groovyx.gpars.actor.DefaultActor 


class Examples { 
static main(args) { 


Consumer consumer = new Consumer(); 
consumer.start(); 


Producer produceri1 = new Producer(consumer, "Producer 1"); 
Producer producer2 = new Producer(consumer, "Producer 2"); 
produceri1.start(); 

Thread. currentThread().sleep(3@@) ; 

producer2.start(); 

consumer. join(); 

println "Main end" 





在 main() 方 法 中 ， 我 们 创建 一 个 消费 者 和 两 个 生产 者 ， 并 且 使 
用 start() 方 法 启动 三 个 Actor。 我 们 使 用 join() 方 法 等 竺 消费 者 Actor 
结束 。 在 生产 者 发 送 Time0ut 异 常 5 秒 钟 后 ， 该 Actor 将 会 结束 。 





下 面 的 屏 磊 截图 显示 了 执行 该 例 时 的 输出 结果 。 
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Sender: class groovyx.gpars.actor.impl.MessageStream$RemoteMessageStream 
Message: Actor Thread 1: Producer 2: Message 99 
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Producer 1: After Stop 
Producer 2: After Stop 
Consumer: Timeout 
Consumer: After Stop 
Undelivered Messages: 0 
Main end 


你 可 以 看 到 生产 者 如 何 结束 其 执行 并 且 输 出 afterSstop() 方 法 的 消息 。 
然后 ， 消 费 者 出 现 一 个 Time0ut 异 常 ， 并 且 执 行 onTimeOut() 和 
afterSstop() 方 法 。 然 后 ， 主 程序 结束 其 执行 。 


最 后 一 个 关于 Actor 的 示例 将 向 你 展示 如 何 使 用 无 状态 Actor。 首 先 ， 创 
建 一 个 名 为 Event 的 类 ， 该 类 有 两 个 属性 : 一 个 名 为 msg 的 String 属 性 
和 一 个 名 为 date 的 Date 属 性 。 


class Event { 
String msg; 
Date date; 
@Override 


public String toString() { 
return "Event: "+msg+": on "+date; 


} 
} 


现在 ， 创 建 一 个 名 为 Logger 的 类 ， 并 且 指 定 它 扩 

展 DynamicDispatchActor 类 。 我 们 实现 onMessage() 方 法 的 三 个 版 
本 ， 它 们 分 别 接收 Event 对 象 、String 对 象 和 Exception 对 象 作 为 参 
数 。 我 们 在 控制 台中 仅 输出 有 关 它 收 到 的 消息 的 信息 。 








class Logger extends DynamicDispatchActor { 


def onMessage (Event event) { 


println "Logger: "+Thread.currentThread().getName()+": "+event; 
replyIfExists "Logger: Event received"; 
} 
def onMessage(String msg) { 
println "Logger: "+Thread.currentThread().getName()+ 
": Direct mgs: "+msg; 
replyIfExists "Logger: Direct msg received"; 


} 
def onMessage(Exception e) { 
println "Logger: "+Thread.currentThread().getName()+": Error: 
"+e. getLocalizedMessage(); 
replyIfExists "Logger: Error received" 
} 
} 





最 后 ， 创 建 一 个 名 为 Example9 的 类 以 及 main() 方 法 。 首 先 ， 创 建 一 
个 Logger 类 的 Actor， 并 使 用 start() 方 法 启动 其 执行 。 


import groovyx.gpars.actor.Actor 
import groovyx.gpars.actor.Actors 


class Example9 { 
static main(args) { 
Logger logger = new Logger(); 
logger.start(); 





然后 ， 使 用 Actors 类 的 actor() 方 法 创建 另 一 个 Actor。 在 代码 中 ， 我 们 
癌 Logger 类 友 送 三 个 消 轧 《每 种 类 型 一 个 ) ， 并 且 包 含 用 于 处 理 三 个 
响应 的 代码 。 








def tester = Actors.actor { 
println "Tester: "+Thread.currentThread().getName()+ 


loop(3) { 
react(1000) { msg -> 


println "Tester: "+Thread.currentThread().getName()+ 
": I've received a message: "+msg 


: is running" 


} 
} 
Event event = new Event() 
event.msg = "I'm an event" 


event.date = new Date() 
logger.send event 
logger.send "I'm a message" 


Exception e = new Exception("I'm an exception") 

logger.send e; 

println "Tester: "+Thread.currentThread().getName()+ 
": Tester has finished" 





最 后 ， 使 用 join() 方 法 等 待 tester Actor 结 束 ， 使 用 stop() 方 法 停 
止 logger Actor， 并 且 使 用 join() 方 法 等 待 其 最 终结 束 。 


tester.join(); 
logger.stop(); 
logger. join(); 


println "Main End" 








下 面 的 屏幕 截图 展示 了 执行 本 例 后 的 输出 结 


Tester: Actor Thread 
Tester: Actor Thread 
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1: Tester has finished 
Logger: Actor Thread 2: Event: I'm an event: on Tue May @9 10:51:21 CEST 2017 
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Logger: Actor Thread 2: Direct mgs: I'm a message 
Tester: Actor Thread 1: I've received a message: Logger: Direct msg received 
2: Error: I'm an exception 
1: I've received a message: Logger: Error received 


Logger: Actor Thread 
Tester: Actor Thread 
Main End 


13.3.5 Agent 


Agent 保 护 可 变数 据 对 象 ， 使 之 可 以 在 线程 之 间 安 全 地 共享 。 Agent 接 受 
消息 并 以 异步 方式 处 理 它们 。 消 娠 是 可 以 在 Agent 内 部 执行 的 函数 或 
Groovy 财 包 。 函 数 的 返回 值 或 闭 包 将 成 为 Agent 的 新 值 /状态 。 函 数 或 闭 
包 将 Agent 的 当前 值 /状态 作为 参数 。 


我 们 发 送 给 Agent 的 命令 是 按 顺 序 存储 的 ， 而 且 是 一 个 接 一 个 地 处 理 ， 
因此 不 会 出 现任 何 鄞 争 条 件 。 


要 创建 Agent， 需 要 创建 Agent 类 的 一 个 新 对 象 ， 用 Agent 中 存储 的 取 值 
类 型 对 Agent 类 进行 参数 化 。 


当 你 使 用 Agent 时 ， 通 常 使 用 以 下 方法 。 





。 send(): 该 方法 向 Agent 发 送 一 个 命令 。 

e addListener(): 该 方法 添加 一 个 监听 器 ， 每 当 Agent 的 值 发 生变 
化 时 就 会 得 到 通知 。 

e addValidator(): 该 方法 添加 一 个 类 似 于 监听 器 的 验证 器 ， 但 是 
可 以 拒绝 对 抛 出 异常 的 Agent 的 值 做 出 更 改 。 


让 我 们 实现 一 个 示例 ， 看 看 如 何 使 用 Agent。 首 先 ， 创 建 一 个 名 

为 Account 的 类 ， 它 含有 一 个 名 为 value 的 内 部 整 型 属性 ， 一 个 名 
为 increment() 的 方法 〈 用 于 递增 value 属 性 的 值 ) ， 一 个 名 

为 decrement() 的 方法 (用 于 递减 value 属 性 的 值 ) ， 以 及 返回 value 
属性 值 的 方法 。 





class Account { 
private int value = ð; 
def void increment (int amount) { 
println "Account.increment: "+Thread.currentThread().getName()+": " 
+amount ; 


value+=amount 


} 


def void decrement (int amount) { 


println "Account.decrement: "+Thread.currentThread().getName()+": " 
+amount ; 
value-=amount 
} 
def int getValue() { 
return value; 


} 





然后 ， 创 建 一 个 名 为 Example16 的 类 以 及 main() 方 法 。 创 建 一 个 存储 
Account 对 象 的 新 Agent。 


class Example10 { 


static main(args) { 


Agent agent = new Agent<Account>(new Account()) 





然后 ， 创 建 一 个 Actor， 对 该 Agent 的 Account 对 象 调用 100 
次 increment() 方 法 。 你 可 以 使 用 it 变 量 来 访问 该 Agent 的 当前 值 。 


def incrementer = Actors.actor { 
for (def i=@; i<100; i++) { 
agent.send {it.increment (100@) } 
} 
} 





现在 ， 创 建 另 一 个 Actor。 该 Actor 将 对 存储 在 该 Agent 中 的 Account 对 象 
调用 99 次 decrement () 方 法 。 


def decrementer = Actors.actor { 
for (def i=@; i<99; i++) { 
agent.send {it.decrement (100@) } 
} 
} 





最 后 ， 等 竺 两 个 Actor 执 行 结束 并 且 输 出 该 Agent 的 最 终 值 。 


incrementer.join() 
decrementer.join() 
println "Final value: "+agent.val.getValue() 


} 
} 





如 果 执 行 该 示例 ， 你 将 会 看 到 结果 为 1000 (100 次 递增 操作 和 99 次 递减 
操作 ) 。 





13.3.6 Dataflow 


Dataflow 为 生产 者 和 消费 者 之 间 共 享 数据 提供 了 安全 通道 。Dataflow 最 
基本 的 元 素 是 Dataflow 变 量 。 你 只 需 创建 一 个 Dataflows 类 的 对 象 ， 然 
后 我 们 可 以 在 其 之 上 定义 变量 。 这 些 变 量 有 两 个 重要 特征 。 
。 只 能 设置 一 次 值 。 
。 当 一 个 任务 试图 使 用 Dataflow 变 量 的 值 时 ， 它 的 执行 线程 将 被 阻 
塞 ， 直 到 该 变量 有 值 为 止 。 
使 用 Dataflow 变 量 可 以 获得 以 下 好 处 。 


。 没有 竞争 条 件 。 
。 不 需要 显 式 地 使 用 锁 或 其 他 同步 机 制 。 








e 如 果 存 在 由 Dataflow 变 量 引 发 的 死 锁 ， 可 以 确定 其 原因 。 


我 们 来 看 一 个 使 用 Dataflow 变 量 的 例子 。 首 先 ， 创 建 一 个 名 为 Examplel 
的 类 ， 其 中 含有 main( ) 方 法 。 


import static groovyx.gpars.dataflow.Dataflow.task; 
import java.util.concurrent.TimeUnit 
import groovyx.gpars.dataflow.Dataflows; 


class Example11 { 





static main(args) { 





现在 ， 创 建 一 个 Dataflows 对 象 和 一 个 Date 对 象 〈 其 中 含有 该 方法 启动 
执行 的 日 期 ) 。 


def store = new Dataflows() 
def mainStart = new Date(); 
println "Main: Start "+mainStart 





现在 ， 启 动 一 个 逻辑 任务 ， 它 将 由 男 一 个 使 用 task 函 数 的 线程 执行 。 将 
其 执行 线程 休眠 1 秒 钟 ， 然 后 在 Dataflows 对 象 中 创建 一 个 变量 ， 并 是 
为 其 赋值 为 3。 


task { 
TimeUnit .SECONDS.sleep(1) 
store.x = 3 


} 


现在 ， 创 建 妃 一 个 与 前 述 任务 类 似 的 任务 。 我 们 将 执行 线程 休 虐 2 秘 
钟 ， 然 后 将 一 个 名 为 y 的 变量 指派 给 它 ， 其 值 为 4。 





task { 
TimeUnit.SECONDS. sleep(2) 


store.y = 4 
} 





然后 ， 创 建 第 三 个 任务 ， 该 任务 将 计算 变量 x 和 y 之 间 的 和 ， 并 且 将 该 值 
存储 在 另 一 个 名 为 z 的 Dataflow 变 量 中 。 


task { 
def start = new Date() 
println "Calculus Task: "+start 


store.z store.x + store.y 
def end = new Date() 
println "Calculus Task: "+end 





最 后 ， 在 main() 方 法 中 输出 变量 z 的 值 。 


println "Main: The final result is: "+store.z 
println "Main: End" 
} 





} 





下 面 的 屏幕 截图 显示 了 执行 这 个 例子 后 的 输出 结果 。 


Main: Start Tue May @9 16:19:49 CEST 2617 
Calculus Task: Tue May @9 16:19:5@ CEST 2017 
Main: The final result is: 7 

Main: End 

Calculus Task: Tue May 09 16:19:52 CEST 2017 


et eS ee ea 的 对 象 ， 并 且 使 用 << 运 算 符 
给 它 赋 值 。 例 如 ， 创 建 一 个 名 为 Example13 的 类 以 及 main() 方 法 ， 并 
且 创 建 一 个 名 为 data 的 DataflowVariable 类 的 对 象 。 


import static groovyx.gpars.dataflow.Dataflow.task; 
import java.util.concurrent.TimeUnit 
import groovyx.gpars.dataflow.DataflowVariable; 


class Example13 { 


static main(args) { 
def data = new DataflowVariable() 





现在 ， 创 建 一 个 任务 将 其 执行 线程 休眠 2 秒 钟 ， 并 且 使 用 < 运算 符 将 值 2 
赋 给 该 变量 。 





task { 
println Thread.currentThread().getName()+": Wait two seconds to 
set the value" 


TimeUnit .SECONDS.sleep(2) ; 
data << 2; 


} 


最 后 ， 在 main() 方 法 中 包含 一 个 输出 data 变 量 取 值 的 语句 。 


println Thread.currentThread().getName()+" : Bind handler : " 
t+data.val; 





当 你 执行 该 示例 时 ， 将 看 到 任务 所 输出 的 消息 ， 以 及 两 秒 之 后 
由 main() 方 法 所 输出 的 消息 ， 其 中 含有 Dataf1lowvariable 对 象 的 值 。 


Dataflow 提 供 的 另 一 个 元 素 是 Dataflow 广 播 。 它 人 允许 我 们 在 生产 者 和 消 
费 者 之 间 发 送 数据 ， 束 像 在 它们 之 间 存 在 一 个 队列 一 样 。 它 提供 了 一 种 
发 布 一 订阅 机 制 ， 以 便 文 持 多 个 生产 者 与 一 个 或 多 个 消费 者 交互 的 情 
Mke 


下 面 来 看 看 这 种 机 制 是 如 何 运 作 的 。 首 先 ， 创 建 一 个 名 为 Producer 的 
类 。 它 有 两 个 私有 属性 : 一 个 名 为 broadcast 的 DataflowBroadcast 
ne 使 用 该 类 的 构造 函数 来 初始 化 这 
两 个 属性 。 








import java.util.concurrent.TimeUnit 
import groovyx.gpars.dataflow.DataflowBroadcast ; 


class Producer { 


private DataflowBroadcast broadcast 

private String name 

public Producer (DataflowBroadcast broadcast, String name) { 
this.broadcast = broadcast 
this.name = name 





} 


现在 ， 实 现 一 个 名 为 execute( ) 的 方法 。 在 该 方法 中 ， 使 用 << 运 算 符 将 
100 个 string 对 象 写 入 broadcast 对 象 。 在 每 条 消息 之 间 ， 将 执行 线程 
休眠 500 毫 秒 。 


public void execute() { 








for (int i=@; i<100; i++) { 
def msg = name + " MSG "+i+" : "+new Date(); 
broadcast << msg 
TimeUnit .MILLISECONDS.sleep(5@@) ; 





现在 ， 创 建 一 个 名 为 Consumer 的 类 。 该 类 将 和 Producer 类 具有 相同 的 
属性 。 使 用 该 类 的 构造 函数 来 初始 化 这 两 个 属性 。 


import groovyx.gpars.dataflow.DataflowBroadcast 
import groovyx.gpars.dataflow.DataflowReadChannel 


class Consumer { 


private DataflowBroadcast broadcast 

private String name 

public Consumer (DataflowBroadcast broadcast, String name) { 
this.broadcast = broadcast 
this.name = name 


} 





现在 ， 实 现 execute( ) 方 法 。 首 先 ， 创 建 一 个 DataflowReadChannel 
类 的 对 象 ， 读 取 来 自 DataflowBroadcast 的 值 。 然 后 ， 使 用 val 函 数 编 
写 200 条 消息 。 该 函数 将 会 休眠 当前 线程 ， 直 到 DataflowBroadcast 中 
的 新 数据 可 用 。 








public void execute() { 
DataflowReadChannel stream = broadcast.createReadChannel() 
for (int i=@; i<200; i++) { 


println "Consumer "+name+": "+stream.val 





我 们 有 了 生产 者 和 消费 者 。 现 在 该 让 它们 工作 了 。 创 建 一 个 名 

为 Example12 的 类 ， 其 中 含有 main() 方 法 。 创 建 一 

个 DataflowBroadcast 对 象 、 两 个 生产 者 和 三 个 消费 者 。 创 建 一 个 线 
ee 费 者 。 然 后 ， 使 用 join() 方 法 等 竺 它们 


import groovyx.gpars.dataflow.DataflowBroadcast 
import static groovyx.gpars.dataflow.Dataflow.task 


class Example12 { 


static main(args) { 

DataflowBroadcast dataflow = new DataflowBroadcast() 

def producer1, producer2, consumer1, consumer2, consumer3 

Thread thread1 = Thread.start { 
producer1 = new Producer(dataflow, "Producer 1") 
producer1.execute() 

} 

Thread thread2 = Thread.start { 
producer2 = new Producer(dataflow, "Producer 
producer2.execute() 

} 

Thread thread3 = Thread.start{ 
consumer1 = new Consumer(dataflow, "Consumer 
consumer1.execute() 


Thread thread4 = Thread.start { 
consumer2 = new Consumer(dataflow, "Consumer 2") 
consumer2.execute() 

} 

Thread thread5 = Thread.start { 
consumer3 = new Consumer (dataflow, "Consumer 
consumer3.execute() 

} 

thread1.join() 

thread2.join() 

thread3.join() 

thread4.join() 

thread5.join() 

println "Main: end" 
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: Producer 
: Producer 
: Producer 
: Producer 
: Producer 


Consumer Consumer 
Consumer Consumer 
Consumer Consumer 
Consumer Consumer 
Consumer Consumer 
Consumer Consumer 3: Producer 
Consumer Consumer 2: Producer 


1 MSG 97 : Tue May 09 16:21:34 CEST 2017 
3 
2 
1 
2 
3 
2 
Consumer Consumer 1: Producer 
3 
2 
2 
3 
1 
3 
1 


MSG 97 : Tue May @9 16:21:34 CEST 2017 
MSG 97 : Tue May @9 16:21:34 CEST 2017 
MSG 98 : Tue May @9 16:21:34 CEST 2017 
MSG 98 : Tue May 09 16:21:34 CEST 2017 
MSG 98 : Tue May @9 16:21:34 CEST 2017 
MSG 98 : Tue May 09 16:21:34 CEST 2017 
: Tue May 09 16:21:34 CEST 2017 
MSG 98 : Tue May @9 16:21:34 CEST 2017 
MSG 99 : Tue May 09 16:21:35 CEST 2017 
MSG 99 : Tue May @9 16:21:35 CEST 2017 
MSG 99 : Tue May @9 16:21:35 CEST 2017 
MSG 99 : Tue May @9 16:21:35 CEST 2017 
MSG 99 : Tue May @9 16:21:35 CEST 2017 
MSG 99 : Tue May 09 16:21:35 CEST 2017 


Consumer Consumer 3: Producer 
Consumer Consumer 2: Producer 
Consumer Consumer 2: Producer 
Consumer Consumer 3: Producer 
Consumer Consumer 1: Producer 
Consumer Consumer 3: Producer 
Consumer Consumer 1: Producer 
Main: end 


可 以 看 到 由 生产 者 生成 的 每 条 消息 如 何 到 达 三 个 消费 者 。 


Dataflow 提 供 的 另 一 个 功能 是 使 用 select() 函 数 从 多 个 通道 中 选择 一 个 
值 。 该 函数 接收 一 个 通道 列表 作为 参数 ， 它 将 从 全 部 含有 可 读 值 的 通道 
中 选择 一 个 。 该 函数 返回 一 个 selectResu1lt 对 象 ， 其 中 含有 返回 的 值 
和 它 所 选 通道 的 信息 。 这 种 机 制 也 是 可 配置 的 ， 例 如 ， 对 某 些 渠道 进行 
优先 级 排序 。 


我 们 来 看 看 这 种 机 制 是 如 何 运作 的 。 首 先 ， 创 建 一 个 名 为 Example14 的 
类 ， 其 中 含有 main() 方 法 。 创 建 名 为 sourcel1、source2 和 source3 的 
三 个 DataflowVariable 对 象 。 
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import static groovyx.gpars.dataflow.Dataflow.task 
import static groovyx.gpars.dataflow.Dataflow.select 
import java.util.concurrent.TimeUnit 

import groovyx.gpars.dataflow.DataflowVariable 


class Example14 { 
static main(args) { 


def sourcel = new DataflowVariable() 
def source2 = new DataflowVariable() 
def source3 = new DataflowVariable() 


现在 ， 创 建 三 个 任务 来 为 每 个 数据 源 提 供 一 个 值 。 每 个 任务 在 为 
其 DataflowVariable 对 象 赋值 之 前 ， 会 将 其 执行 线程 休眠 不 同 的 时 
间 。 








task { 
TimeUnit .SECONDS.sleep(3); 
sourcel << "sourcel1" 


} 


task { 
TimeUnit.SECONDS.sleep(5); 


source2 << "source2" 


task { 
TimeUnit .SECONDS.sleep(1) ; 
source3 << "source3" 


} 
现在 ， 使 用 select 函 数 从 这 些 数 据 源 获取 值 ， 并 且 将 其 输出 到 控制 





def result = select([source1, source2, source3]) 
println "Main: "+result.select() 


} 
} 








下 面 的 屏幕 截图 显示 了 执行 该 例 后 的 输出 结 


Main: SelectResult{index=2, value=source3} 


在 本 例 中 ，source3 对 象 首先 得 到 值 ， 因 此 select 消 数 将 在 一 秒 钟 之 后 
返回 它 。 


我 们 要 分 析 的 最 后 一 种 Dataflow 机 制 是 运算 符 。 运 算 符 从 输入 通道 接收 
值 ， 并 且 生 成 新 值 写 入 输出 通道 。 所 有 这 些 通 着 都 是 Dataflow 的 变量 。 
运算 符 将 等 等 所有 输入 通道 ， 直 到 它 开始 执行 为 止 。 


我 们 来 看 看 这 种 机 制 是 如 何 运 行 的 。 创 建 一 个 名 为 Example15 的 类 ， 其 
中 含有 main( ) 方 法 。 创 建 名 为 a、b、c、d 的 四 个 DataflowVariable 
对 象 





import groovyx.gpars.dataflow.DataflowVariable; 
import static groovyx.gpars.dataflow.Dataflow. operator; 
import java.util.concurrent.TimeUnit 


class Example15 { 
static main(args) { 


def a 
def b 
def c 
def d 


new DataflowVariable(); 
new DataflowVariable(); 
new DataflowVariable(); 
new DataflowVariable(); 





现在 使 用 operator 命 令 创建 一 个 名 为 op 的 新 运算 符 。 它 接收 三 个 输 
入 ， 即 Dataflow 变 量 a、b 和 c， 并 且 返 回 Dataflow 变 量 d 的 值 。 我 们 使 
用 bindoutput 函 数 来 确定 输出 的 值 。 





def op = operator(inputs: [a, b, c], outputs: [d]) {x, y, z -> 
println "Operator" 
bindOutput 0, x + y+zZ 

} 


最 后 ， 为 变量 a、b 和 c 赋 值 ， 并 且 使 用 变量 d 的 val 属 性 
将 DataflowVariable 的 值 输出 到 控制 台 。 











a << 3; 
b << 5; 
c << 7; 


println "Main: "+d.val 





当 我 们 将 值 赋 给 三 个 DataflowVariable 对 象 时 ， 运 算 符 执行 其 代码 。 
当 其 完成 之 后 ，DataflowVariable d 就 有 了 值 ， 并 且 在 main() 方 法 的 
最 后 一 条 语句 中 输出 。 


下 面 的 屏 才 截 图 显示 了 执行 本 例 后 的 输出 结果 。 





Operator 
Main: 15 


13.4 ” Scala 的 并 发 处 理 


Scala 是 一 种 通用 的 多 范式 编程 语言 ， 具 有 面 癌 对 象 和 函数 式 编程 的 特 

点 。 它 的 代码 被 编译 成 Java 字 节 人 码 。 它 提供 了 Java 互 操作 性 ， 因 此 你 可 
以 在 Scala 代 码 中 使 用 Java 元 素 〈 包 括 Java 并 发 API) ， 也 可 以 在 Java 程 序 
中 使 用 用 Scala 编 写 的 库 。 


正如 我 们 在 介绍 Clojure 和 Groovy 时 提 到 的 ， 本 节 的 主要 目的 不 是 介绍 
Scala 编 程 语言 及 其 安装 和 配置 。 可 通过 The Scala Programming Language 
官网 下 载 使 用 Scala 工 作 所 需 的 工具 。 你 可 以 在 IDE 中 安装 插件 以 获得 
Scala 文 持 环境 。 例 如 ，Eclipse 就 有 Scala IDE 插 件 ， 可 以 通过 Eclipse 
Marketplace 进 行 安装 。 


Scala 并 发 模型 基于 Future 和 Promise。EFuture 存 储 了 一 个 还 不 存在 的 值 ， 
该 值 将 由 一 个 异步 任务 来 计算 ， 而 该 任务 将 由 男 一 个 线程 执行 。Future 
使 用 一 种 非 阻塞 机 制 ， 并 且 当 该 值 可 用 时 《或 者 发 生 错 误 时 ) 利用 回调 
Promise 是 一 各 机制， 它 可 以 让 你 完成 (给 定 一 个 

) Future。 














ExecutionContext 对 象 是 Scala 并 发 API 中 非常 重要 的 一 个 元 素 。 它 负 
责 执行 应 用 程序 中 启动 的 Future 对 象 。 默 认 情 况 下 ， 它 由 Java 并 发 API 的 
ForkJoinPool 文 持 ， 不 过 你 也 可 以 创建 一 个 不 同 的 线程 池 。 对 于 大 多 
数 需求 而 言 ， 都 可 以 使 用 默认 的 ExecutionContext， 注 意 包含 以 下 语 
ar 


import ExecutionContext.Implicits.global 


在 代码 的 import 部 分 ， 必 须要 包含 该 语句 。 
13.4.1 Scala 中 的 Future 对 象 


正如 前 面 提 到 的 ，Future 存 储 的 值 还 不 存在 ， 但 是 在 将 来 某 个 时 候 可 
用 。 这 个 值 将 由 一 个 异步 任务 来 计算 ， 而 该 任务 将 由 另 一 个 线程 执行 。 
大 多 数 情况 下 ， 要 在 定义 Future 之 时 指定 该 任务 ， 并 且 任 务 将 按照 计划 
在 将 来 某 一 时 刻 开 始 执行 。 








Future 不 使 用 阻塞 机 制 来 获得 结果 。 你 可 以 将 一 个 或 多 个 回调 函数 关联 
在 一 起 ， 当 Future 在 其 进程 中 有 一 个 值 或 异种 发 生 时 再 执行 。 


Future 有 两 个 可 能 的 返回 值 。 如 果 任 务 在 没有 错误 的 情况 下 结束 执行 并 
返回 一 个 值 ， 那 么 我 们 说 Future 已 经 成 功 完 成 并 将 执行 成 功 回 调 函 数 。 
当 一 个 Future 抛 出 异 冲 时 ，Future 执 行 失 败 ， 并 执行 其 故障 回调 函数 。 


创建 Future 最 简单 的 方法 是 使 用 Future 类 的 apply() 方 法 。 该 方法 创建 
并 调度 一 个 异步 计算 ， 该 计算 将 执行 apply() 方 法 中 指定 的 代码 。 该 方 
法 将 返回 Future 对 象 。 


我 们 可 以 将 不 同 的 Future 回 调 函 数 关 联 起 来 处 理 其 结果 。 这 些 回调 函数 
有 如 下 几 种 。 


e onComplete: 该 函数 在 Future 结 束 执行 时 调用 ， 无 论 是 成 功 结束 还 
是 错误 结束 。 在 该 函数 的 代码 中 ， 应 该 包含 用 于 区 分 Future 是 人 否 错 
误 完 成 的 代码 。 

e onSuccess: 该 函数 在 Future 成 功 执行 完毕 时 调用 。 

e onFailure: 该 函数 在 Future 结 束 执行 并 抛 出 异常 时 调用 。 


让 我 们 看 一 些 在 Scala 中 使 用 Future 的 例子 。 创 建 一 个 名 为 Task 的 类 和 一 
个 名 为 doAction( ) 的 方法 。 该 方法 将 接收 一 个 String 对 象 和 一 个 Int 
值 作为 参数 ， 并 且 返 回 一 个 String 对 象 。 在 内 部 ， 它 输出 关于 执行 任 
务 的 线程 的 信息 ， 将 线程 休眠 参数 中 指定 的 秒 数 ， 并 且 返 回 一 

个 String 对 象 。 








class Task { 
def doAction(name : String, number: Int) : String = { 
var result : String = ""; 
println(Thread.currentThread().getName()+": "+name+": Starting 


execution"); 
TimeUnit .SECONDS.sleep(number) ; 
printlin(Thread.currentThread().getName()+": "+name+": End 

execution"); 
result = name +" has been sleeping for " + number + " seconds "; 
return result; 





现在 ， 对 Future 类 做 一 些 测 试 。 首 先 ， 为 本 例 包含 所 有 必需 的 类 ， 并 


且 使 用 main() 方 法 创建 一 个 名 为 TestConcurrency 的 对 象 。 


import scala.concurrent.ExecutionContext 
import java.util.concurrent.ThreadPoolExecutor 
import java.util.concurrent.Executors 

import scala.concurrent.Future 

import ExecutionContext.Implicits.global 


import scala.util.{Success, Failure} 
import java.util.concurrent.TimeUnit 


object TestConcurrency { 
def main(args: Array[String]) { 





然后 ， 使 用 Future 类 创建 10 个 Future 对 象 。 每 个 Future 将 创建 一 个 Task 
对 象 并 且 调 用 doAction( 1) 方法。 


for (i <- 1 to 10 ) { 
val result : Future[String] = Future { 
var task : Task = new Task(); 
task.doAction("Task "+i,i); 


} 


然后 ， 人 吉 果 Future 对 象 相关 联 。 如 果 Future 以 
异常 方式 (出 现 故 障 ) 结束 ， 我 们 将 输出 一 条 消息 。 人 否则 ， 我 们 将 输出 
Future 所 返回 的 值 。 











result onComplete { 
case Success(value) => println(value) 
case Failure(e) => println("An error has occured: " 
+e.getMessage) 


} 


} 
TimeUnit .SECONDS .sleep(26) 
} 
} 








下 面 的 屏幕 截图 显示 了 执行 本 例 后 的 输出 。 


uw 


ForkJoinPool-1-worker-5: 
ForkJoinPool-1-worker-1: 
Task 6 has been sleeping 
ForkJoinPool-1-worker-1: 
ForkJoinPool-1-worker-3: 
Task 7 has been sleeping 
ForkJoinPool-1-worker-?: 
Task 8 has been sleeping 
ForkJoinPool-1-worker-5S: 
Task 9 has been sleeping 
ForkJoinPool-1-worker-1: 


Task 9: Starting execution 
Task 6: End execution 

for 6 seconds 

Task 10: Starting execution 
Task 7: End execution 

for 7 seconds 

Task 8: End execution 

for 8 seconds 

Task 9: End execution 

for 9 seconds 

Task 1@: End execution 


Task 1@ has been sleeping for 1@ seconds 


现在 ， 创 建 一 个 名 为 TestConcurrency2 的 类 。 该 类 

与 TestConcurrency 类 相似 ， 但 是 也 有 一 处 重要 区 别 。 在 本 例 中 ， 我 
们 使 用 两 个 不 同 的 回调 函数 。 当 Future 成 功 结束 时 ， 调 

用 onsuccess() 回 调 函 数 。 当 Future 异 稼 结束 时 ， 则 调用 onFailure() 方 





TR 





import 
import 
import 
import 
import 
import 
import 


object TestConcurrency2 { 
def main(args: Array[String]) { 
for (i <- 1 to 10 ) { 
val result : Future[String] 
var task : 
task. 
} 
result 
case 
} 
result 
case 
} 
} 


TimeUnit 


onSuccess { 


onFailure { 


. SECONDS. sleep( 20) 


scala.concurrent.ExecutionContext 
java.util.concurrent.ThreadPoolExecutor 
java.util.concurrent.Executors 
scala.concurrent. Future 
ExecutionContext.Implicits.global 
scala.util.{Success, Failure} 
java.util.concurrent.TimeUnit 


= Future { 


Task = new Task(); 
doAction("Task "+i,i); 


value => println(value) ; 


e => println("An error has ocurred: "+e.getMessage) ; 


DJ CSR 


现在 我 们 将 实现 相同 的 版 本 ， 只 不 过 使 用 我 们 的 ExecutionContext 
类 。 创建 一 个 名 为 TestConcurrency3 的 类 。 要 创建 

e AO 需要 用 到 ExecutionContext 类 的 
fromExecutor() 方 法 。 将 这 些 方 法 传递 给 Executor 对 象 ， 它 将 用 于 执 
行 ExecutionContext 的 任务 。 使 用 Executor 类 的 
newFixedThreadPool() 方 法 创建 一 个 拥有 10 个 执行 线程 的 执行 器 。 


import scala.concurrent.ExecutionContext 
import java.util.concurrent.ThreadPoolExecutor 
import java.util.concurrent.Executors 

import scala.concurrent. Future 

import scala.util.{Success, Failure} 

import java.util.concurrent.TimeUnit 


object TestConcurrency3 { 
def main(args: Array[String]) { 
implicit val ec : ExecutionContext = ExecutionContext 
. FromExecutor (Executors.newFixedThreadPool (10) ); 
for (i <- 1 to 10) { 
val result : Future[String] = Future { 
var task : Task = new Task(); 
task.doAction("Task "+i,i); 
} 
result onSuccess { 
case value => println(value); 
} 
result onFailure { 
case e => println("An error has ocurred: "+e.getMessage) ; 
} 
} 
TimeUnit.SECONDS.sleep(20) 
} 
} 


现在 ， 让 我 们 做 一 个 测试 ， 看 看 当 Future 抛 出 异常 时 会 发 生 什么 。 创 建 
一 个 名 为 Task 的 类 ， 并 且 添 加 一 个 名 为 doAction() 的 方法 ， 该 方法 接 
收 两 个 参数 ， 即 一 个 名 为 name 的 String 对 象 和 一 个 名 为 number 的 Int 
值 。 如 果 number 等 于 3， 则 doAction( ) 方 法 抛 出 异常 。 否 则 ， 使 之 与 
此 前 介绍 的 Task 类 具有 相同 的 行为 。 


class Task { 





def doAction(name : String, number: Int) : String = { 
var result : String = ""; 
if (number == 3) { 
throw new Exception("Error"); 
} 
printlin(Thread.currentThread().getName()+": "+name+": Starting 
execution"); 
TimeUnit .SECONDS.sleep(number) ; 
println(Thread.currentThread().getName()+": "+name+": End 
exeuction"); 
+ number + " seconds "; 


result = name +" has been sleeping for 
return result; 





然后 ， 我 们 创建 TestConcurrency 类 ， 该 类 创建 10 个 Future 对 象 ， 并 将 
其 与 onComplete() 回 调 函 数 关 联 到 一 起 。 


object TestConcurrency { 
def main(args: Array[String]) { 
// 含有 错误 的 第 一 个 例子 
for (i <- 1 to 10 ) { 
val result : Future[String] = Future { 
var task : Task = new Task(); 
task.doAction("Task "+i,i); 
} 
result onComplete { 
case Success(value) => println(value) 
case Failure(e) => println("An error has occured: 
+e.getMessage) 


} 
} 
TimeUnit .SECONDS .sleep(26) 


} 


} 








下 面 的 屏幕 截图 显示 了 执行 本 例 后 的 输出 。 


ForkJoinPool-1-worker-5: Task 1: Starting execution 
ForkJoinPool-1-worker-1: Task 2: Starting execution 
An error has occured: Error 

ForkJoinPool-1-worker-3: Task 4: Starting execution 
ForkJoinPool-1-worker-7: Task 5: Starting execution 


当 doAction() 方 法 采用 参数 3 执行 时 ， 该 方法 抛 出 一 个 异常 ， 与 该 
Future 相 关联 的 回调 函数 执行 onComplete( 1) 方法 的 Failure 情 况 ， 并 输出 
前 面 屏幕 截图 中 的 错误 消息 。 


在 前 面 的 例子 中 ， 我 们 只 为 每 个 事件 《不 管 成 功 还 是 失败 ) 关联 一 个 回 
调 函 数 ， 不 过 ， 你 可 以 为 每 个 事件 关联 多 个 回调 函数 。 让 我 们 看 一 个 例 
子 。 你 可 以 使 用 前 面 的 Task 对 象 之 一 ， 但 是 让 我 们 创建 一 个 新 的 
TestConcurrency 类 。 我 们 将 onComplete() 和 onsuccess() 回 调 函 数 
关联 到 每 个 Future。 你 甚至 可 以 将 同一 类 型 的 多 个 回调 函数 《多 

个 onComplete()、onsuccess() 或 onFailure() 函 数 ) 关联 到 一 个 
Future。 








object TestConcurrency { 
def main(args: Array[String]) { 
for (i <- 1 to 10 ) { 

val result : Future[String] = Future { 
var task : Task = new Task(); 
task.doAction("Task "+i,i); 

} 

result onComplete { 
case Success(value) => println(value) 


case Failure(e) => println("An error has occured: " 
+e.getMessage) 


} 
result onSuccess { 
case value => println("Second callback: "+value); 

} 

} 

TimeUnit.SECONDS. sleep(20) 

} 
} 


P 面 的 屏 才 截 图 显示 了 执行 本 例 后 的 输出 结果 。 








Task 7 has been sleeping for 7 seconds 
ForkJoinPool-1-worker-7: Task 8: End exeuction 

Second callback: Task 8 has been sleeping for 8 seconds 
Task 8 has been sleeping for 8 seconds 
ForkJoinPool-1-worker-5: Task 9: End exeuction 

Task 9 has been sleeping for 9 seconds 

Second callback: Task 9 has been sleeping for 9 seconds 
ForkJoinPool-1-worker-3: Task 10: End exeuction 

Task 10 has been sleeping for 1@ seconds 

Second callback: Task 1@ has been sleeping for 1@ seconds 


Future 对 象 提供 的 另 一 个 选项 是 将 两 个 Future 对 象 的 执行 关联 起 来 ， 也 
就 是 说 ， 可 以 确保 一 个 Future 在 男 一 个 Future 执 行 结束 后 开始 执行 ， 并 
且 使 用 后 者 的 结果 作为 参数 。 来 看 一 个 使 用 该 功能 的 例子 。 


首先 ， 创 建 一 个 名 为 Step1 的 类 ， 它 含有 一 个 名 为 doAction() 的 方 
a 该 方法 接收 一 个 字符 串 和 一 个 数值 作为 参数 ， 并 且 人 返回 一 个 字符 


class Step1 { 
def doAction(name : String, number: Int) : String = { 
var result : String = ""; 
printlin(Thread.currentThread().getName()+": "+name+": Step 1: 
Starting execution") ; 


TimeUnit.SECONDS.sleep(number) ; 


println(Thread.currentThread().getName()+": "+name+": Step 1: End 
exeuction"); 


result = name +" has been sleeping for " + number + " seconds "; 


return result; 





然后 ， 创 建 一 个 类 似 的 名 为 step2 的 类 。 





class Step2 { 
def doAction(name: String, msg : String) : String = { 
var result : String = ""; 
println(Thread.currentThread().getName()+": "+name+": Step 2: 


Starting execution") ; 


result = name +" has executed Step 2: "+msg; 
println(Thread.currentThread().getName()+": "+name+": Step 2: End 
exeuction"); 


return result; 
} 
} 


最 后 ， 创 建 一 个 名 为 TestConcurrency 的 对 象 以 及 main() 方 法 ， 其 中 
有 一 个 将 执行 10 次 的 循环 。 


object TestConcurrency { 
def main(args: Array[String]) { 





for (i <- 1 to 10 ) { 


然后 ， 创 建 第 一 个 Future， 它 将 创建 step1 类 的 一 个 对 象 ， 并 且 调 
用 doAction() 方 法 。 


var name : String = "Task "+i; 

val result : Future[String] = Future { 
var task : Step1 = new Step1(); 
task.doAction(name,i) ; 


} 





然后 ， 使 用 map( ) 函数 将 一 个 Future 连 接 到 结果 Future 对 象 。 该 Future 创 
建 step2 类 的 一 个 对 象 ， 并 且 调 用 doAction() 方 法 。 


val result2 = result map { value => 
var task : Step2 = new Step2(); 


task.doAction(name, value); 


} 





在 该 Future 的 主体 中 指定 的 value 参 数 是 第 一 个 Future 的 结 


最 后 ， 将 onSuccess() 回 调 函 数 与 第 二 个 Future 关 联 ， 以 便 在 控制 合 中 
输出 结果 。 下 面 的 屏幕 截图 显示 了 执行 本 例 后 的 输出 结果 。 





ForkJoinPool-1-worker-1: Task 8: Step 2: End exeuction 

The output is: Task 8 has executed Step 2: Task 8 has been sleeping for 8 seconds 
ForkJoinPool-1-worker-5: Task 9: Step 1: End exeuction 

ForkJoinPool-1-worker-7: Task 9: Step 2: Starting execution 

ForkJoinPool-1-worker-7: Task 9: Step 2: End exeuction 

The output is: Task 9 has executed Step 2: Task 9 has been sleeping for 9 seconds 
ForkJoinPool-1-worker-3: Task 10: Step 1: End exeuction 

ForkJoinPool-1-worker-3: Task 10: Step 2: Starting execution 
ForkJoinPool-1-worker-3: Task 10: Step 2: End exeuction 

The output is: Task 10 has executed Step 2: Task 10 has been sleeping for 10 seconds 


你 可 以 看 到 ， 直 有 当 第 一 个 Future 完 成 执行 ， 第 二 个 Future 才 会 开始 执 
全 


13.4.2 Promise 


es 种 可 以 用 来 完成 Future 的 机 制 。 首 先 ， 创 建 Promise 类 的 一 个 
对 象 ， 然 后 使 用 该 对 象 来 创建 该 Promise 要 完成 的 Future。 可 以 将 回调 函 有 
数 与 该 Future 关 联 起 来 ， 这 样 ， 当 使 用 Success 或 failure 方 法 为 Promise 赋 
值 时 ，Future 将 完成 而 且 回 调 函 数 将 被 执行 。 


我 们 来 看 看 这 个 机 制 是 如 何 运 作 的 。 创 建 一 个 名 为 TestConcurrency 
的 对 象 ， 其 中 含有 main() 方 法 ， 并 且 创 建 一 个 Promise 对 象 和 一 个 Future 
对 象 。 


object TestConcurrency { 


def main(args: Array[String]) { 


val promise : Promise[String] = Promise[String]() 
val future : Future[String] = promise.future; 





使 用 Promise 的 构造 函数 创建 Promise 对 象 ， 并 且 使 用 Promise 对 象 的 
future( 1) 方法 创建 与 该 Promise 相 关联 的 Future。 


现在 ， 将 回调 函数 关联 到 对 象 future。 


future onSuccess { 


case value => printlin("The future has been completed: "+value) 


} 


此 后 ， 执 行 另 一 个 Future 来 完成 该 Promise。 在 本 例 中 ， 我 们 使 





用 success() 方 法 为 Promise 赋 值 并 且 完 成 该 Future。 


Future { 
promise success "Hola Mundo"; 


} 
最 后 ， 使 用 Await 类 的 ready( ) 方 法 等 待 10 秒 钟 ， 待 Future 结 


Await.ready(future，16 seconds ) ; 


} 
} 


当 你 执行 本 例 时 ， 会 看 到 onSuccess() 函 数 输出 的 消息 。 当 你 执行 
Promise 扫 Jsuccess 方 法 时 ， 将 完成 Future 并 执行 其 onSuccess() 回 调 湄 
数 。 


13.5 ”小结 


Java 并 不 是 唯一 可 以 针对 JVM 进 行 编程 的 语言 。 还 有 很 多 不 同 的 编程 语 
言 采 用 了 不 同 的 范式 ， 也 可 以 用 于 这 一 目的 。 大 部 分 编程 语言 都 有 目 己 
实现 并 友 应 用 程序 的 机 制 。 


在 本 章 中 ， 我 们 了 解 到 如 何 使 用 面 辐 JVM 的 三 种 语言 来 实现 并 发 应 用 程 
序 。 首 先 ，Clojure 是 Lisp 函 数 式 编程 语言 的 一 种 实现 ， 它 提供 了 编写 并 
发 应 用 程序 的 不 同 机 制 ， 如 Atom、Agent、Ref、Delay、Future 和 和 
Promise。 然 后 ，Groovy 及 其 GPars 库 给 了 我 们 许多 可 能 性 ， 它 提供 了 
Actor、Dataflow 和 并 发 数据 结构 。 最 后 ， 我 们 讨论 了 Scala 及 其 基于 
Future 和 Promis 的 并 发 模型 。 











看 完了 


如 采 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编 
辑 或 作 译 者 协助 答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨论 。 


如 果 是 有 关 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : 


ebook@turingbook.com. 
在 这 里 可 以 找到 我 们 : 


WE @ 图 灵 教 育 : 好 书 、 活 动 每 日 播报 

WE @ 图 灵 社 区 : 电子 书 和 好 文章 的 消息 

WE @ 图 灵 新 知 : 图 灵 教 育 的 科普 小 组 

微 信 图 灵 访 谈 : ituring_interview， 讲 述 码 农 精 彩 人 生 
nia 图 灵 教 育 : turingbooks 
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